INTR: Основы Hadoop

IMG_25092017_170731_0

Продолжительность курса — 3 дня

Примечание: с 1 января 2019 года данный курс проводится в объединеном формате по дистрибутивам Hadoop версии 2 компаний Cloudera/HortonWorks/ArenaData на выбор для пользователей. Для корпоративного формата обучения возможна выделенная программа по одной версии дистрибутива Hadoop (по запросу).

О курсе

Данный курс содержит базовую сведения по установке и настройке кластер Hadoop, выполнению основных операций в файловой системе HDFS, запуска задач MapReduce, основам управления ресурсами Hadoop с помощью планировщика задач YARN и знакомит слушателей с концепциями использования Hadoop и компонент экосистемы Hadoop (MapReduce, Apache Hive, Apache Pig, Apache Flume, Apache Sqoop и Apache Spark) для организации хранения больших данных и процессинга.

Курс построен на сквозных практических примерах с тренировочными наборами данных, для запуска batch и потоковых задач в Hadoop кластере развернутого в облчаной инфраструктуре Amazone Web Services с использованием дистрибутивов Cloudera Distributed Hadoop, HortonWorks HDP или ArenaData Hadoop , а также программного обеспечения управления кластером Cloudera Manager или Apache Ambari.

Аудитория

Системные администраторы, системные архитекторы, разработчики Hadoop желающие получить теоретические знания и практические навыки по установке, настройке и использованию кластера Hadoop с использованием дистрибутивов Cloudera, HortonWorks и ArenaData Hadoop.

Соотношение теории к практике 50/50

Необходимая предварительная подготовка

  • Начальный опыт работы в Unix, опыт работы с текстовым редактором vi 

Программа

  1. Введение в Hadoop и Big Data

Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Концепция Data Lake. 

  1. Архитектура Apache Hadoop

Hadoop сервисы и основные компоненты: Name node. Data Node. YARN. HDFS. Отказоустойчивость и высокая доступность.

Batch процессинг.

Потоковая обработка

  1. Распределенная файловая система HDFS

Основы HDFS: Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Дисковые квоты.

Архитектура HDFS. Управление репликацией. Политики гибридного хранения данных HDFS. Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы. Кодеки компрессии. Импорт(загрузка) данных на HDFS. 

  1. MapReduce

Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce. 

  1. Установка кластера

Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoop кластера в облаке. 

  1. Архитектура YARN

Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность. FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF. 

  1. Инструментарий Hadoop экосистемы

Графический интерфейс сервиса HUE.

Введение Apache Pig.

Введение в Apache Hive, понятие Hive таблицы, установка Hive.

Введение в Apache sqoop — установка и выполнение базовых операций.

Введение в Apache Flume — установка и выполнение базовых операций.

Введение в Apache Spark — установка и выполнение базовых операций. 

Примерный список практических занятий:

  • Установка 3х-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari
  • Базовые операции с кластером Hadoop и файловые операции HDFS.
  • Управление ресурсами и запуском задач с использованием YARN и MapReduce.
  • Установка и выполнение базовых операций в Apache Pig
  • Установка и выполнение базовых операций в Apache Hive
  • Установка и выполнение базовых операций в Apache sqoop
  • Установка и выполнение базовых операций в Apache Flume(опционально)
  • Установка и выполнение базовых операций в Apache Spark
  • Выполнение задач в веб-интерфейсе HUE/Zeppelin (опционально) 

Примечание:

  • Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу)
  • Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей
  • Курс «Основы Hadoop» является сокращенной версией курса HADM: Администрирование кластера Hadoop и проводится в параллели с основным курсом в первые 3 дня.

 

INTR: Основы Hadoop
BIG DATA SCIENCE,