3 дня практического обучения аналитиков, дата-инженеров и администраторов баз данных: анализ Big Data, организация ETL/ELT-процессов, построение корпоративных озер и хранилищ данных с масштабируемой отказоустойчивой open-source СУБД Greenplum Database.
ИТ и интернет18+
ПРОГРАММА КУРСА DATA PIPELINE НА APACHE AIRFLOW И APACHE HADOOP
Введение в AirFlow
История появления, решаемые задачи, место в наборе инструментов по обработке данных
Основные объекты (DAG, оператор и task, сенсор, объединение компонентов в DAG)
Процесс исполнения (worker-ы и executor-ы, параллельное и последовательное исполнение)
Планирование и график исполнения DAG
Компоненты Airflow (scheduler, административный web-интерфейс)
Алерты и логирование
Переменные и xcomm
Connection и работа с источниками данных
Разработка Data Flow с Apache AirFlow
Процесс создания DAG
Основные операторы
Создание (настройка) python и bash операторов
Создание собственных операторов и сенсоров
Использование connection
Hooks и практические примеры использования
xcomm и переменные: зачем нужны и что дают
Возможности макроязыка (Jinja)
Настройка расписания и его особенности
Развертывание и настройка Airflow
Установка Airflow в конфигурации по умолчанию (SQLite, SequentialExecutor)
Оставаясь на сайте, вы даете согласие на обработку cookie и персональных данных (узнать подробнее). Если вы не хотите, чтобы данные обрабатывались, покиньте сайт.