AIRF: Apache AirFlow

IMG_25092017_170731_0

Продолжительность курса — 2 дня

Аудитория

 Системные администраторы, системные архитекторы, разработчики Hadoop получить практические Apache AirFlow.

Соотношение теории к практике 60/40

Необходимая предварительная подготовка

  • Начальный опыт работы в Unix, опыт работы с текстовым редактором vi (желателен)
  • Начальный опыт программирования Python/bash

 Программа курса

Введение

  • История появления, на чем написан (python)
  • Основной объект (DAG)
  • Операторы и таски
  • Worker
  • Scheduler, schedule interval и execution date
  • Pool’ы
  • Приоритезация
  • Метаданные
  • Airflow U/I и Webserver
  • Мониторинг (средства Airflow и кастомные варианты)
  • Алерты
  • Логирование

Разработка

  • Создание и основные параметры DAG
  • Operators и plugins
  • Hooks, connections, и variables
  • Работающие из коробки и уже написанные community операторы, хуки и т.п.
  • Создание тасков
  • Макросы (Jinja)
  • Управление зависимостями (внутри DAG, внешние зависимости, timedelta)
  • Визуализация в Web UI
  • Настройка расписания
  • Контекст (выполнения task)
  • Обмен сообщениями между tasks, DAGS (xcom)
  • Добавление настраиваемых операторов, сенсоров, хуков и т.п.

Развертывание и настройка Airflow

  • Установка Airflow в конфигурации по умолчанию (SQLite, SequentialExecutor)
  • Установка Redis, Celery
  • Настройкаcfg (PostgreSQL, Celery, Redis, parallel degree…)
  • Запуск (service,н-рsystemctl, doker)
  • Кластеризация (масштабируемость, безотказность)
  • Особенности и проблемы в Airflow
  • Версии python(2 или 3)
  • Debug
  • Тестирование
  • Логирование

Практические занятия:

  • Настройка окружения (Pycharm, python, библиотеки для окружения в Virtualenv).
  • Создание DAG с задачами BashOperator / PythonOperator для получения данных из Kafka.
  • Создание кастомного оператора, осуществляющего по заданным параметрам выгрузку из Kafka. Создание DAG, использующего созданный оператор.
AIRF: Apache AirFlow
BIG DATA SCIENCE,