HADM: Администрирование кластера Hadoop

IMG_25092017_170731_0

Продолжительность курса — 5 дней

Hadoop является наиболее популярной открытой платформой для распределенных вычислений. Курс содержит расширенную информацию по планированию и развертыванию распределенных вычислительных кластеров на базе Hadoop, мониторингу и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройкам безопасности системы на базе Hadoop. Данный курс включает необходимую теоретическую подготовку и наглядные практические примеры развертывания и администрирования Hadoop-кластера, в том числе в облачной инфраструктуре. Практические занятия выполняются в кластерной среде AWS с использованием программного обеспечения Cloudera Manager и подготавливают слушателей к сдаче сертификационного экзамена Cloudera Certified Administrator for Apache Hadoop (CCAH).

Аудитория

Системные администраторы, системные архитекторы, разработчики Hadoop 

Предварительная подготовка

  • Начальный опыт работы в Unix.

Программа курса

  1. Введение в Big Data
  • Что такое Big Data
  • Понимание проблемы Big Data
  1. Hadoop Distributed File System
  • Блоки HDFS
  • Основные команды работы с HDFS
  • Операции чтения и записи, назначения HDFS
  • Архитектура HDFS
  1. Архитектура Apache Hadoop
  • Отказоустойчивость Hadoop
  • Name node
  • Архитектура MRv1
  • YARN
  • Map reduce framework
  • Hadoop daemons
  1. Дизайн кластера Hadoop
  • Дистрибутивы и версии Hadoop: различия и ограничения
  • Требования программного и аппаратного обеспечения
  • Вопросы масштабирования
  • Планирование кластера
  • Оптимизация уровня ядра.
  • Hadoop в облаке.
  1. Установка кластера
  • Установка Hadoop кластера
  • Выбор начальной конфигурации
  • Начальная конфигурация HDFS и MapReduce
  • Файлы логов
  • Установка Hadoop клиентов
  • Установка Hadoop кластера в облаке
  • Выбор вендора и хостинга
  • Установка с использованием виртуального образа
  • Amazon EMR
  1. MapReduce
  • Ведение в MapReduce
  • Компоненты MapReduce
  • Работа программы MapReduce
  • YARN MapReduce v2
  • Восстановление после сбоя
  • JobTracker веб интерфейс
  1. Операции обслуживания кластера Hadoop
  • Дисковая подсистема
  • Квоты
  • Остановка, запуск, перезапуск
  • Управление узлами
  • Сетевая топология
  • Настройка высокой доступности кластера и обновлений
  • Импорт(загрузка) данных на HDFS
  1. Управление кластером Hadoop с использованием Cloudera Manager
  • Установка Cloudera Manager
  • Основные операции и задачи Cloudera Manager
  • Мониторинг с Cloudera Manager
  • Диагностика и разрешение проблем с Cloudera Manager
  1. Безопасность при работе с Big Data
  • Многопользовательский режим
  • Аутентификация и авторизация
  • Kerberos, keytabs, principals
  • Установка и конфигурирование Kerberos в Hadoop
  1. Мониторинг
  • Nagios
  • Ganglia
  • JMX
  • Logging
  • Clustering
  1. Оптимизация и управление ресурсами
  • Поиск узких мест
  • Производительность
  • Файловая система
  • Worker Node
  • Сетевая производительность
  • FIFO scheduler
  • Планировщик емкости (Capacity scheduler)
  • Гранулярное управление ресурсами (Fair scheduler)
  • Защита очередей и доминантное управление ресурсами
  1. Troubleshooting
  • Data Node
  • Task Tracker
  • Job Tracker
  • Name Node
  1. Резервное копирование (Backup)
  • Резервное копирование и аварийное восстановление
  • Best practices
  1. Инструментарий Hadoop экосистемы
  • Apache Pig — установка и функционал
  • Введение в Apache Hive, понятие Hive таблицы, установка Hive
  • Apache Scoop — установка и функционал
  • Apache Flume — установка и функционал
HADM: Администрирование кластера Hadoop
BIG DATA SCIENCE,