• 4 февраля 2019, понедельник
  • Москва, ул. Илимская, д. 5, корп. 2

Курс "HDDE: Hadoop для инженеров данных"

Регистрация на событие закрыта

Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.

Другие события организатора

Школа Больших данных
1901 день назад
с 10:00 4 февраля до 17:30 8 марта 2019
Москва
ул. Илимская, д. 5, корп. 2

5-дневный практический тренинг по настройке batch/streaming потоков данных средствами Apache Spark, Flume, Kafka, sqoop, Hive для организации озера данных (Data Lake) на кластере Hadoop и процессов ETL/ELT

Данный курс  направлен на формирование практических и теоретических  навыков планирования, формирования и сопровождения Data Lake(озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания «pipelines» — традиционных источников поступления данных (корпоративные базы данных, web логи, файловые системы, интернет данные, транзакции)  для последующего анализа больших данных. Практические занятия выполняются в  AWS и локальной кластерной системе с использованием дистрибутивов  Cloudera Hadoop и HortonWorks Data Platform.

Соотношение теории к практике 40/60

Программа курса

  1. Основные концепции Hadoop
    • Основы Hadoop. Жизненый цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных.  Тенденции развития Hadoop.
    • Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS.
    • Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределенных данных с использованием Apache SparkYARN и MapReduce v2/v3.
    • Управление ресурсами и очередями задач. FIFO/Capacity/Fair scheduler.
  2. Инструменты управления кластером
    • Выполнение базовых операций с Cloudera Manager/Apache Ambari.
    • Настройка компонент Apache ZooKeeper.
    • Создание и управление запросами и данными с использованием сервиса Hue.
  3. Хранение данных в HadoopDFS
    • Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVRORCfileORCParquet.
    • Введение в Apache Pig: формат хранения данных, сложные и вложенные типы данных, синтаксис Pig Latin, оптимизация операций Join.
  4. Apache Spark
    • Архитектура Apache Spark.
    • Введение в Spark: RDD & Datasets
    • Доступ к внешним данным из Spark
    • Интеграция с Hadoop, запуск приложений
    • Spark streaming
    • Spark SQL
    • Datasets, Dataframes
  5. Импорт/экспорт  данных в кластер Hadoop
    • Импорт и обработка данных в кластере Hadoop
    • Интеграция с реляционными базами данных
    • Структура хранения данных в таблицах
    • Технологии NoSQL
    • Сравнительная характеристика решений Hadoop SQL
    • Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкриментальный импорт, Hive экспорт Apache Hive
  6. Apache Hive
    • Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов,  работа с внешними и внутренними таблицами Hive, оптимизация Join операций. Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности
  7. Cloudera Impala
    • Введение в Cloudera Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие  SparkHive
    • Оптимизация Impala запросов
  8. Потоковые данные
    • Event Processing System. Импорт потоковых данных в кластер
    • Использование Kafka для работы с потоковыми данными
    • Использование Flume  для работы с потоковыми данными
    • Визуализация потоковых данных

Подробнее www.bigdataschool.ru/bigdata/hadoop... 

Регистрация

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!

Профессиональная билетная система, статистика продаж 24/7, выгрузка списков участников, встроенные инструменты продвижения, личный кабинет для самостоятельного управления и еще много чего интересного.

Узнать больше