ADHI: Основы Arenadata Hadoop

IMG_25092017_170731_0

Продолжительность курса — 3 дня

  1. Введение в Big Data
  • Что такое BigData. Понимание проблемы Big Data.
  • Эволюция систем распределенных вычислений Hadoop.
  • Принципы формирование pipelinesи Data
  1. Архитектура ArenadataHadoop
  • Hadoopсервисы и основные компоненты. Name node. Data Node. YARN сервис. Планировщик. HDFS.
  • Отказоустойчивость и высокая доступность.
  1. HadoopDistributed File System
  • Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS. Дисковые квоты. Поддержка компрессии.
  • Основные форматы хранения данных TXT, AVROORCParquetSequenceфайлы.
  • Импорт (загрузка) данных на HDFS.
  1. MapReduce
  • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce.
  • YARNMapReduce Ограничения и параметры MapReduce и YARN.
  • Управление запуском пользовательских задач (jobs) под MapReduce.
  1. Установка кластера
  • Установка Hadoopкластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций.
  • Установка Hadoopклиентов. Установка Hadoop кластера в облаке. Автоматические варианты установки. Установка и настройка кластера Hadoop в изолированном окружении (offline).
  1. Оптимизация и управление ресурсами
  • Поиск узких мест. Производительность. Файловая система. DataNode.
  • Сетевая производительность. FIFOscheduler. Планировщик емкости (Capacity scheduler).
  • Гранулярное управление ресурсами (Fairscheduler). Защита очередей и доминантное управление ресурсами DRF.
  1. Управление кластером Hadoopс использованием Apache Ambari
  • Установка ApacheAmbari. Интерфейс управления Apache Ambari.
  • Базовые операции обслуживания и управление задачами с использованием ApacheAmbari.
  • Диагностика и trobleshootingс Apache Ambari.
  1. Инструментарий Hadoopэкосистемы дистрибутива ArenaData
  • Графический интерфейс сервиса Zeppelin/HUE.
  • Введение ApachePig.
  • Введение в ApacheHive/Tez, понятие Hive таблицы, установка Hive/Tez.
  • Введение в Apachesqoop — установка и выполнение базовых операций.
  • Введение в ApacheFlume — установка и выполнение базовых операций.
  • Обзор и назначение компонент: Apache Kafka, Apache HBaseApache NiFi, Apach SparkApache FlinkApache
ADHI: Основы Arenadata Hadoop
BIG DATA SCIENCE,