ADH: Администрирование кластера Arenadata Hadoop
Продолжительность курса — 5 дней
Описание Услуги
ADH: Администрирование кластера Arenadata Hadoop
02. Архитектура Arenadata Hadoop
03. Hadoop Distributed File System
- Архитектура HDFS. Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS.
- Дисковые квоты
- Поддержка компрессии
- Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequenceфайлы
- Импорт(загрузка) данных на HDFS
- Организация Tieringдля хранения данных
- Архивное хранение HDFS
- Локальноечтение и распределенное кэширование
04. Map Reduce
05. Дизайн кластера Hadoop
- Сравнение дистрибутивов и версий Hadoop2/3 (HortonWorks Data Platform, Cloudera Distributed Hadoop, MapR, Arenadata Hadoop): различия и ограничения.
- Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. FederatedNameNode. Hadoop в облаке.
- Сравнение Cloudрешений для Hadoop. Amazon EMR.
- Интеграция с другими решениями: streaming (DataFlow), NoSQL
06. Установка кластера
- Установка Hadoopкластера. Выбор начальной конфигурации
- Оптимизация уровня ядра для узлов
- Начальная конфигурация HDFSи MapReduce. Файлы логов и конфигураций
- Установка Hadoopклиентов. Установка Hadoop кластера в облаке.
- Автоматическая установка
- Установка и настройка кластера Hadoopв изолированном окружении (offline).
07. Операции обслуживания кластера Hadoop
- Дисковая подсистема
- Квоты
- Остановка, запуск, перезапуск
- Управление узлами
- Управление обновлениями и создание локального репозитория.
08. Оптимизация и управление ресурсами
- Поиск узких мест.
- Производительность. Файловая система. Data Node. Сетевая производительность
- Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
- Особенности управления ресурсами для разных дистрибутивов
09. Управление кластером Hadoop с использованием Apache Ambari
- Установка Apache Ambari
- Интерфейс управления Apache Ambari
- Базовые операции обслуживания и управление задачами с использованием Apache Ambari
- Диагностика и trobleshooting с Apache Ambari
- Использование Ambari View для управления кластером
10. Безопасность Hadoop
- Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива Arenadata Hadoop: Apache Ranger, Apache Atlas, Apache Knox.
- Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
- Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
- Best practices Arenadata Hadoop
11. Мониторинг и администрирование кластера Hadoop
- Встроенные средства мониторинга Apache Ambari Metrics, Grafana
- Логи сервисов и компонент
- Внешние системы мониторинга: Zabbix, JMX
12. Troubleshooting
- DataNode
- Name Node
- Восстановление NameNode
13. Инструментарий Hadoop экосистемы дистрибутива Arenadata Hadoop
- Графический интерфейс сервиса Ambari Views/ HUE.
- Использование Apache Pig для ETL преобразований .
- Введение в Apache Hive, понятие Hiveтаблицы, установка Hive.
- Импорт и экспорт SQL данных с применением Apachesqoop.
- Работа с потоковыми данными с использованием ApacheFlume.
- Обзор и назначение компонент: ApacheKafka, Apache HBase, Apache NiFi, Apache Spark, Apache Zookeeper, Apache Oozie
14. Примерный список практических занятий курса по Администрированию кластера Arenadata Hadoop:
- Ручная установка кластера Hadoopс дистрибутива Arenadata Hadoop на локальной системе 3х-узловый кластер
- Установка 3-узлового кластера в облаке AmazonWeb Services с использованием Apache Ambari
- Базовые операции с кластером Hadoopи файловые операции HDFS.
- Управление ресурсами и запуском задач с использованием YARNMapReduce.
- Администрирование кластера с использованием Apache Ambari (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
- Настройка аутентификации Kerberosдля кластера Hadoop под управление Apache Ambari
- Установка и выполнение базовых операций в ApacheHive, Apache sqoop, Apache Flume
- Выполнение задач в веб-интерфейсе Ambari Views/ HUE
- Мониторинг кластера Hadoopс использованием Zabbix (опционально)
- Настройка высокой доступности NameNode (опционально).