HDDE: КУРС HADOOP ДЛЯ ИНЖЕНЕРОВ ДАННЫХ

5-дневный практический тренинг по batch/streaming обработке потоков данных средствами Apache Airflow, Spark, Flume, Kafka, Sqoop, Hive для организации озера данных (Data Lake) на кластере Hadoop версии 3 и процессов ETL/ELT.

ИТ и интернет 18+

ПРОГРАММА КУРСА HADOOP ДЛЯ ИНЖЕНЕРОВ ДАННЫХ

  1. Основные концепции Hadoop и Data Lake
    • Основы Hadoop. Основные компоненты, парадигма, история и тенденции развития
    • Современные хранилища данных, Data Lake, его архитектура
  2. Map Reduce и Yarn
    • Ведение в MapReduce. Этапы выполнения задачи в MapReduce и подход к программированию
    • Архитектура и задачи YARN. Управление ресурсами и очередями задач, FIFO/Capacity/Fair scheduler
  3. Хранение данных в HDFS
    • Архитектура HDFS. Операции чтения и записи, блоки HDFS
    • Основные команды работы с HDFS
    • Дополнительные возможности и особенности HDFS
  4. Импорт/экспорт  данных в кластер Hadoop – формирование Data Lake
    • Импорт и обработка данных в кластере Hadoop
    • Интеграция с реляционными базами данных
    • Структура хранения данных в таблицах
    • Введение в Sqoop: импорт и экспорт данных из реляционных источников
  5. Apache Hive
    • Введение в Hive и соответствие DDL операций структуре хранения
    • Работа с внешними и внутренними таблицами Hive
    • Партиционирование данных
    • Hive LLAP, Hive on Spark/Tez
    • Хранение данных в HDFS: сжатие и форматы файлов (AVRO, ORC, Parquet)
  6. Основы Apache Spark
    • Архитектура и состав Apache Spark
    • Основные абстракции (Dataframe, RDD)
    • Spark SQL
    • Ввод и вывод данных в Apache Spark
  7. Введение в Cloudera Impala
    • Введение в Cloudera Impala: особенности архитектура и компоненты
    • Взаимодействие Spark, Hive
  8. Введение в Apache HBase
    • Архитектура и состав Apache HBase
    • Основные абстракции и язык запросов
  9. Введение в Apache Kafka
    • Архитектура и состав Apache Kafka
    • Партиции, топики, управление смещением
    • Основные API
  10. Введение в Apache Airflow
    • Архитектура и состав Apache Airflow
    • Основные абстракции (DAG, оператор, сенсор)
    • Основные операторы (Bash Operator, Python Operator)

Поделиться:

416 дней назад
13 марта 10:25 — 17 марта 2023 18:00

Событие пройдет онлайн

Поделиться:

Связь с организатором

Напоминаем, что для того чтобы сделать возврат организатору можно не писать.

На этот адрес придёт ответ от организатора.

Подпишитесь на рассылку организатора

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов