ADH: Администрирование кластера Arenadata Hadoop

IMG_25092017_170731_0

Продолжительность курса — 5 дней

1.    Введение в Big Data и администрирование кластера Arenadata Hadoop

  • Что такое BigData. Понимание проблемы Big Data
  • Эволюция систем распределенных вычислений Hadoop
  • Принципы формирование pipelinesи Data Lake

2.    Архитектура Arenadata Hadoop

  • Hadoopсервисы и основные компоненты. Name nodeData Node.
  • YARNсервис
  • HDFS
  • Отказоустойчивость и высокая доступность

3.    Hadoop Distributed File System

  • Архитектура HDFSБлоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS
  • Дисковые квоты
  • Поддержка компрессии
  • Основные форматы хранения данных TXTAVROORCParquetSequenceфайлы
  • Импорт(загрузка) данных на HDFS
  • Организация Tieringдля хранения данных
  • Архивное хранение HDFS
  • Локальноечтение и распределенное кэширование

4.    Map Reduce

  • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduceYARNMapReduce v2
  • Ограничения и параметры MapReduceи YARN
  • Управление запуском пользовательских задач (jobs) под MapReduce 

5.    Дизайн кластера Hadoop

  • Сравнение дистрибутивов и версий Hadoop2/3 (HortonWorks Data Platform, Cloudera Distributed HadoopMapRArenadata Hadoop): различия и ограничения.
  • Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость HadoopFederatedNameNodeHadoop в облаке.
  • Сравнение Cloudрешений для HadoopAmazon EMR.
  • Интеграция с другими решениями: streaming (DataFlow), NoSQL

6.    Установка кластера

  • Установка Hadoopкластера. Выбор начальной конфигурации
  • Оптимизация уровня ядра для узлов
  • Начальная конфигурация HDFSи MapReduce. Файлы логов и конфигураций
  • Установка Hadoopклиентов. Установка Hadoop кластера в облаке.
  • Автоматическая установка
  • Установка и настройка кластера Hadoopв изолированном окружении (offline).

7.    Операции обслуживания кластера Hadoop

    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск
    • Управление узлами
    • Управление обновлениями и создание локального репозитория.

8.    Оптимизация и управление ресурсами

    • Поиск узких мест.
    • Производительность. Файловая система. Data Node. Сетевая производительность
    • ПланировщикиFIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
    • Особенности управления ресурсами для разных дистрибутивов

9.    Управление кластером Hadoop с использованием Apache Ambari

    • Установка Apache Ambari
    • Интерфейс управления Apache Ambari
    • Базовые операции обслуживания и управление задачами с использованием Apache Ambari
    • Диагностика и trobleshooting с Apache Ambari
    • Использование Ambari View для управления кластером

10. Безопасность Hadoop

    • Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива  Arenadata HadoopApache RangerApache AtlasApache Knox.
    • Многопользовательский режим. Аутентификация и авторизация. Kerberoskeytabsprincipals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
    • Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
    • Best practices  Arenadata Hadoop

11. Мониторинг и администрирование кластера Hadoop

    • Встроенные средства мониторинга Apache Ambari Metrics, Grafana
    • Логи сервисов и компонент
    • Внешние системы мониторинга: ZabbixJMX

12 . Troubleshooting

  • DataNode
  • Name Node
  • Восстановление NameNode

13. Инструментарий Hadoop экосистемы дистрибутива  Arenadata Hadoop

  • Графический интерфейс сервиса Ambari Views/ HUE.
  • Использование Apache Pig для ETL преобразований .
  • Введение в Apache Hive, понятие Hiveтаблицы, установка Hive.
  • Импорт и экспорт SQL данных с применением Apachesqoop.
  • Работа с потоковыми данными с использованием ApacheFlume.
  • Обзор и назначение компонент: ApacheKafkaApache HBaseApache NiFiApache SparkApache Zookeeper, Apache Oozie

Примерный список практических занятий курса по Администрированию кластера Arenadata Hadoop:

  • Ручная установка кластера Hadoopс дистрибутива Arenadata Hadoop на локальной системе 3х-узловый кластер
  • Установка 3-узлового кластера в облаке AmazonWeb Services с использованием Apache Ambari
  • Базовые операции с кластером Hadoopи файловые операции HDFS.
  • Управление ресурсами и запуском задач с использованием YARNMapReduce.
  • Администрирование кластера с использованием Apache Ambari  (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
  • Настройка аутентификации Kerberosдля кластера Hadoop под управление Apache Ambari
  • Установка и выполнение базовых операций в ApacheHiveApache sqoopApache Flume
  • Выполнение задач в веб-интерфейсе Ambari Views/ HUE
  • Мониторинг кластера Hadoopс использованием Zabbix (опционально)
  • Настройка высокой доступности NameNode (опционально).

 

 

ADH: Администрирование кластера Arenadata Hadoop
BIG DATA SCIENCE,