DPREP: Подготовка данных для Data Mining на языке Python

IMG_25092017_170731_0

Продолжительность курса — 4 дня

О курсе

 Данный курс является введением в подготовку данных для машинного обучения (Machine Learning) и интеллектуального анализа (Data Mining). В курсе описаны основные особенности в данных, с которыми приходится сталкиваться при их подготовке для решения бизнес-задач с помощью алгоритмов машинного обучения. Вы познакомитесь с библиотеками языка Python и PySpark: их возможностями и ограничениями для решения различных задач по подготовке данных к Machine Learning и Data Mining. Итоговый проект по полному циклу подготовки данных поможет вам закрепить приобретенные знания и навыки, а также глубже погрузиться в практику науки о данных (Data Science).

Аудитория

 Специалисты по работе с большими данными, разработчики, аналитики и руководители, которые хотят понять подходы к подготовке данных для решения бизнес-задач с помощью алгоритмов машинного обучения и получить практические навыки в этой области.

 Предварительная подготовка

  • опыт программирования на языке Python
  • знание основ математического анализа и математической статистики

 

Программа курса «Подготовка данных для Data Mining на Python»

 

  1. Знакомство с библиотеками языка Python для обработки и визуализации данных

 

Цель: познакомить участников с основными библиотеками языка Python и сформировать начальные навыки по работе с данными в рассматриваемых библиотеках

 Теоретическая часть:

  • изучение возможностей библиотек языка Python для обработки (Pandas, NumPy, SciPy, Sklearn) и визуализации (matplotlib, seaborn) данных.
  • обзор основных приемов по работе с данными:
  • первичный анализ данных
  • получение описательных статистик
  • изменение типа данных
  • построение сводных таблиц
  • визуализация статистических характеристик данных (гистограммы, графики плотностей распределений, тепловые карты, «ящики с усами» и «виолончели»)

Практическая часть: решение практических задач обработки и визуализации данных на примере табличных данных

  1. Библиотеки Python в корректировании типичных особенностей в данных

Цель: познакомить участников с основными особенностями реальных датасетов и научить их корректировать с использованием библиотек языка Python. Продемонстрировать применение указанных подходов в случае промышленного варианта подготовки данных на примере Apache Spark (PySpark).

 

Теоретическая часть:

  • обзор типичных особенностей в данных и подходов к их корректировке
  • отсутствующие значения
  • выбросы
  • дубликаты
  • подготовка данных для использования в алгоритмах машинного обучения:
  • нормализация числовых данных
  • преобразование категориальных значений
  • работа с текстовыми данными

Практическая часть: подготовка «сырых» данных для использования в алгоритмах машинного обучения с подробным анализом влияния каждой особенности датасета на конечный результат работы алгоритма.

  1. Проектная работа

Цель: закрепить полученные слушателями курса знаний по подготовке данных

Теоретическая часть: краткий обзор пройденного материала с примерами рабочих блокнотов, в которых решалась та или иная задача подготовки данных

Практическая часть: самостоятельное решение задачи подготовки датасета для машинного обучения с использованием собственной базы данных или на лабораторном наборе от организаторов курса. Итоговый разбор работ слушателей курса.

DPREP: Подготовка данных для Data Mining на языке Python
BIG DATA SCIENCE,