ПРОГРАММА КУРСА
1. Введение в машинное обучение
- Профессии дата инженера и дата сайентиста
- Цикл работ согласно CRISP-DM
- Классификация алгоритмов машинного обучения
- Пример алгоритма
2. Feature Engineering и подготовка данных
- Особенности подготовки данных для машинного обучения
- Датасет и денормализация
- Стандартный набор операций по подготовке данных
- Дополнительные требования некоторых алгоритмов
3. Возможности Spark Mllib
- Векторы и разреженные векторы
- Алгоритмы обучения с учителем
- Нейронные сети и другие алгоритмы
- Подходы к продуктивному использованию настроенных алгоритмов
4. Базовый Workflow и конвейеры
- Базовый процесс обучения с использованием Spark MLLIB
- Понятие конвейера и его настройка в Spark MLLIB
5. Модуль Feature и предоставляемые возможности
- Стандартные операции очистки данных
- Работа с категориальными данными
- Векторизация текста
- Другие возможности модуля Feature