ADH: Администрирование кластера Arenadata Hadoop

Продолжительность курса — 5 дней

Описание Услуги

ADH: Администрирование кластера Arenadata Hadoop

03. Hadoop Distributed File System

  • Архитектура HDFS. Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS.
  • Дисковые квоты
  • Поддержка компрессии
  • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequenceфайлы
  • Импорт(загрузка) данных на HDFS
  • Организация Tieringдля хранения данных
  • Архивное хранение HDFS
  • Локальноечтение и распределенное кэширование

05. Дизайн кластера Hadoop

  • Сравнение дистрибутивов и версий Hadoop2/3 (HortonWorks Data Platform, Cloudera Distributed Hadoop, MapR, Arenadata Hadoop): различия и ограничения.
  • Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. FederatedNameNode. Hadoop в облаке.
  • Сравнение Cloudрешений для Hadoop. Amazon EMR.
  • Интеграция с другими решениями: streaming (DataFlow), NoSQL

06. Установка кластера

  • Установка Hadoopкластера. Выбор начальной конфигурации
  • Оптимизация уровня ядра для узлов
  • Начальная конфигурация HDFSи MapReduce. Файлы логов и конфигураций
  • Установка Hadoopклиентов. Установка Hadoop кластера в облаке.
  • Автоматическая установка
  • Установка и настройка кластера Hadoopв изолированном окружении (offline).

08. Оптимизация и управление ресурсами

  • Поиск узких мест.
  • Производительность. Файловая система. Data Node. Сетевая производительность
  • Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
  • Особенности управления ресурсами для разных дистрибутивов

10. Безопасность Hadoop

  • Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива Arenadata Hadoop: Apache Ranger, Apache Atlas, Apache Knox.
  • Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
  • Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
  • Best practices Arenadata Hadoop

13. Инструментарий Hadoop экосистемы дистрибутива Arenadata Hadoop

  • Графический интерфейс сервиса Ambari Views/ HUE.
  • Использование Apache Pig для ETL преобразований .
  • Введение в Apache Hive, понятие Hiveтаблицы, установка Hive.
  • Импорт и экспорт SQL данных с применением Apachesqoop.
  • Работа с потоковыми данными с использованием ApacheFlume.
  • Обзор и назначение компонент: ApacheKafka, Apache HBase, Apache NiFi, Apache Spark, Apache Zookeeper, Apache Oozie

14. Примерный список практических занятий курса по Администрированию кластера Arenadata Hadoop:

  • Ручная установка кластера Hadoopс дистрибутива Arenadata Hadoop на локальной системе 3х-узловый кластер
  • Установка 3-узлового кластера в облаке AmazonWeb Services с использованием Apache Ambari
  • Базовые операции с кластером Hadoopи файловые операции HDFS.
  • Управление ресурсами и запуском задач с использованием YARNMapReduce.
  • Администрирование кластера с использованием Apache Ambari (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
  • Настройка аутентификации Kerberosдля кластера Hadoop под управление Apache Ambari
  • Установка и выполнение базовых операций в ApacheHive, Apache sqoop, Apache Flume
  • Выполнение задач в веб-интерфейсе Ambari Views/ HUE
  • Мониторинг кластера Hadoopс использованием Zabbix (опционально)
  • Настройка высокой доступности NameNode (опционально).