ADHI: Основы Arenadata Hadoop

Продолжительность курса — 3 дней

Описание Услуги

ADHI: Основы Arenadata Hadoop

01. Введение в Big Data

  • Что такое BigData. Понимание проблемы Big Data.
  • Эволюция систем распределенных вычислений Hadoop.
  • Принципы формирование pipelinesи Data

03. Hadoop Distributed File System

  • Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS. Дисковые квоты. Поддержка компрессии.
  • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequenceфайлы.
  • Импорт (загрузка) данных на HDFS.

05. Установка кластера

  • Установка Hadoopкластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций.
  • Установка Hadoopклиентов. Установка Hadoop кластера в облаке. Автоматические варианты установки. Установка и настройка кластера Hadoop в изолированном окружении (offline).

06. Оптимизация и управление ресурсами

  • Поиск узких мест. Производительность. Файловая система. DataNode.
  • Сетевая производительность. FIFOscheduler. Планировщик емкости (Capacity scheduler).
  • Гранулярное управление ресурсами (Fairscheduler). Защита очередей и доминантное управление ресурсами DRF.

08. Инструментарий Hadoopэкосистемы дистрибутива ArenaData

  • Графический интерфейс сервиса Zeppelin/HUE.
  • Введение ApachePig.
  • Введение в ApacheHive/Tez, понятие Hive таблицы, установка Hive/Tez.
  • Введение в Apachesqoop — установка и выполнение базовых операций.
  • Введение в ApacheFlume — установка и выполнение базовых операций.
  • Обзор и назначение компонент: Apache Kafka, Apache HBase, Apache NiFi, Apach Spark, Apache Flink, Apache