NOSQL: КУРС ИНТЕГРАЦИЯ HADOOP И NOSQL

5-дневный практический курс для инженеров данных, архитекторов Data Lake и Data Warehouse, а также разработчиков Big Data решений.

ИТ и интернет 18+

ПРОГРАММА КУРСА ИНТЕГРАЦИЯ HADOOP И NOSQL

  1. Введение в NoSQL
  • Базовые принципы и компоненты Hadoop
  • Основные концепции и виды NoSQL решений
  • Архитектура Data Lake
  • Принципы формирование pipelines и Data Lake
  1. Организация импорта данных
  • Apache Sqoop – основные принципы:
    • простой импорт и экспорт данных из реляционных источников
    • сценарии применения
  • Apache Spark – обзор возможностей:
    • импорт и экспорт данных из реляционных источников и файлов
    • нагруженный импорт данных с преобразованием для вложенных, JSON, XML форматов
  • Особенности использования форматов хранения файлов AVROORCParquet.
  1. Организация Hadoop SQL интерфейса доступа к данным на файловой системе HDFS
  • Apache Hive – интерфейс доступа для batch-процессинга данных на HDFS
    • Основные компоненты системы
    • Batch процессинг с использованием движков MapReduce/Tez, LLAP, Spark – особенности
    • Тюнинг JOIN операций
    • Сценарии использования
  • Cloudera Impala – OLAP аналитика данных в MPP Hadoop
    • Особенности решения
    • Интеграция с Hive и HBase
    • Форматы файлов для Cloudera Impala (Parquet, ORC)
    • Особенности JOIN-операций
    • Сценарии использования
  • Spark SQL
    • Возможности фреймворка и предоставляемые API
    • Сложные преобразования и агрегация с использованием Spark SQL
    • Интеграция с Hive
    • Сценарии использования
  1. NoSQL в Hadoop
  • Спектр возможностей NoSQL в экосистеме Hadoop
  • Apache HBase – для real-time доступа на чтение и запись
    • Архитектура решенияконцепция CRUD,
    • Проектирование базы данных, выбор column family
    • Сценарии использования HBase
    • Использование Apache Phoenix для HBase
  1. Организация хранилища MPP NoSQL на примере Greenplum/ArenadataDB
  • Концепция MPP и её реализация в Greenplum/ArenadataDB.
    • Загрузка и распределение данных. Сегментирование таблиц. Индексация
    • Внешние таблицы, реплицированные таблицы, consistent hashing
    • Оптимизация запросов, JOIN
    • Best practices
    • Сценарии использования
  1. OLAP на колоночных базах данных на примере Yandex ClickHouse и Arenadata Quick Marts
  • Особенности реализации
  • Шардирование, партиционирование, индексация
  • Сценарии использования

Поделиться:

569 дней назад
24 октября 10:00 — 28 октября 2022 18:00

Событие пройдет онлайн

Уже есть билет
Ссылка на онлайн-событие рассылается за час до его начала.
Получить ссылку

Поделиться:

Связь с организатором

На этот адрес придёт ответ от организатора.

Подпишитесь на рассылку организатора

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов