DPREP: ПОДГОТОВКА ДАННЫХ ДЛЯ DATA MINING НА PYTHON

Практический курс для статистиков, начинающих Data Scientist’ов, архитекторов Data Lake, аналитиков и инженеров данных по подготовке Big Data к машинному обучению, моделированию и интеллектуальному анализу на примере использования Apache Spark и Python.

ИТ и интернет 18+

ПРОГРАММА КУРСА «ПОДГОТОВКА ДАННЫХ ДЛЯ DATA MINING НА PYTHON»

1. ЗНАКОМСТВО С БИБЛИОТЕКАМИ ЯЗЫКА PYTHON ДЛЯ ОБРАБОТКИ И ВИЗУАЛИЗАЦИИ ДАННЫХ.

Цель: познакомить участников с основными библиотеками языка Python и сформировать начальные навыки по работе с данными в рассматриваемых библиотеках.

Теоретическая часть:

  • изучение возможностей библиотек языка Python для обработки (Pandas, NumPy, SciPy, Sklearn) и визуализации (matplotlib, seaborn) данных.
  • обзор основных приемов по работе с данными:
    • первичный анализ данных
    • получение описательных статистик
    • изменение типа данных
    • построение сводных таблиц
    • визуализация статистических характеристик данных (гистограммы, графики плотностей распределений, тепловые карты, «ящики с усами» и «виолончели»)

Практическая часть: решение практических задач обработки и визуализации данных на примере табличных данных.

2. БИБЛИОТЕКИ PYTHON В КОРРЕКТИРОВАНИИ ТИПИЧНЫХ ОСОБЕННОСТЕЙ В ДАННЫХ.

Цель: познакомить участников с основными особенностями в данных, с которыми приходится сталкиваться в реальных задачах, и научить успешно их корректировать с использованием библиотек языка Python. Продемонстрировать применение указанных подходов в случае промышленного варианта подготовки данных на примере использования Apache Spark (PySpark).

Теоретическая часть:

  • обзор типичных особенностей в данных и подходов к их корректировке:
    • отсутствующие значения
    • выбросы
    • дубликаты
  • подготовка данных для использования в алгоритмах машинного обучения:
    • нормализация числовых данных
    • преобразование категориальных значений
    • работа с текстовыми данными

Практическая часть: подготовка «сырых» данных для использования в алгоритме машинного обучения с подробным анализом влияния каждой особенности датасета на конечный результат работы алгоритма.

3. ИТОГОВЫЙ ПРОЕКТ

Цель: закрепить полученные слушателями курса знаний по подготовке данных.

Теоретическая часть: краткий обзор пройденного материала со ссылками на рабочие блокноты, в которых решалась та или иная задача подготовки данных.

Практическая часть: самостоятельное решение задачи подготовки датасета для машинного обучения с использованием собственной базы данных или на лабораторном наборе от организаторов курса. Итоговый разбор работ слушателей курса.

Поделиться:

702 дня назад
14 июня 10:00 — 17 июня 2022 18:00

Событие пройдет онлайн

Уже есть билет
Ссылка на онлайн-событие рассылается за час до его начала.
Получить ссылку

Поделиться:

Связь с организатором

На этот адрес придёт ответ от организатора.

Подпишитесь на рассылку организатора

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов