HDDE: КУРС HADOOP ДЛЯ ИНЖЕНЕРОВ ДАННЫХ

5-дневный практический тренинг по batch/streaming обработке потоков данных средствами Apache Airflow, Spark, Flume, Kafka, Sqoop, Hive для организации озера данных (Data Lake) на кластере Hadoop версии 3 и процессов ETL/ELT.

ИТ и интернет 18+

ПРОГРАММА КУРСА HADOOP ДЛЯ ИНЖЕНЕРОВ ДАННЫХ

  1. Основные концепции Hadoop и Data Lake
    • Основы Hadoop. Основные компоненты, парадигма, история и тенденции развития
    • Современные хранилища данных, Data Lake, его архитектура
  2. Map Reduce и Yarn
    • Ведение в MapReduce. Этапы выполнения задачи в MapReduce и подход к программированию
    • Архитектура и задачи YARN. Управление ресурсами и очередями задач, FIFO/Capacity/Fair scheduler
  3. Хранение данных в HDFS
    • Архитектура HDFS. Операции чтения и записи, блоки HDFS
    • Основные команды работы с HDFS
    • Дополнительные возможности и особенности HDFS
  4. Импорт/экспорт  данных в кластер Hadoop – формирование Data Lake
    • Импорт и обработка данных в кластере Hadoop
    • Интеграция с реляционными базами данных
    • Структура хранения данных в таблицах
    • Введение в Sqoop: импорт и экспорт данных из реляционных источников
  5. Apache Hive
    • Введение в Hive и соответствие DDL операций структуре хранения
    • Работа с внешними и внутренними таблицами Hive
    • Партиционирование данных
    • Hive LLAP, Hive on Spark/Tez
    • Хранение данных в HDFS: сжатие и форматы файлов (AVRO, ORC, Parquet)
  6. Основы Apache Spark
    • Архитектура и состав Apache Spark
    • Основные абстракции (Dataframe, RDD)
    • Spark SQL
    • Ввод и вывод данных в Apache Spark
  7. Введение в Cloudera Impala
    • Введение в Cloudera Impala: особенности архитектура и компоненты
    • Взаимодействие Spark, Hive
  8. Введение в Apache HBase
    • Архитектура и состав Apache HBase
    • Основные абстракции и язык запросов
  9. Введение в Apache Kafka
    • Архитектура и состав Apache Kafka
    • Партиции, топики, управление смещением
    • Основные API
  10. Введение в Apache Airflow
    • Архитектура и состав Apache Airflow
    • Основные абстракции (DAG, оператор, сенсор)
    • Основные операторы (Bash Operator, Python Operator)

Поделиться:

713 дней назад
6 июня 2022 10:25–18:00

Событие пройдет онлайн

Уже есть билет
Получить ссылку

Поделиться:

Связь с организатором

На этот адрес придёт ответ от организатора.

Подпишитесь на рассылку организатора

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов