NOSQL: КУРС ИНТЕГРАЦИЯ HADOOP И NOSQL

5-дневный практический курс для инженеров данных, архитекторов Data Lake и Data Warehouse, а также разработчиков Big Data решений.

ИТ и интернет 18+

ПРОГРАММА КУРСА ИНТЕГРАЦИЯ HADOOP И NOSQL

  1. Введение в NoSQL
  • Базовые принципы и компоненты Hadoop
  • Основные концепции и виды NoSQL решений
  • Архитектура Data Lake
  • Принципы формирование pipelines и Data Lake
  1. Организация импорта данных
  • Apache Sqoop – основные принципы:
    • простой импорт и экспорт данных из реляционных источников
    • сценарии применения
  • Apache Spark – обзор возможностей:
    • импорт и экспорт данных из реляционных источников и файлов
    • нагруженный импорт данных с преобразованием для вложенных, JSON, XML форматов
  • Особенности использования форматов хранения файлов AVROORCParquet.
  1. Организация Hadoop SQL интерфейса доступа к данным на файловой системе HDFS
  • Apache Hive – интерфейс доступа для batch-процессинга данных на HDFS
    • Основные компоненты системы
    • Batch процессинг с использованием движков MapReduce/Tez, LLAP, Spark – особенности
    • Тюнинг JOIN операций
    • Сценарии использования
  • Cloudera Impala – OLAP аналитика данных в MPP Hadoop
    • Особенности решения
    • Интеграция с Hive и HBase
    • Форматы файлов для Cloudera Impala (Parquet, ORC)
    • Особенности JOIN-операций
    • Сценарии использования
  • Spark SQL
    • Возможности фреймворка и предоставляемые API
    • Сложные преобразования и агрегация с использованием Spark SQL
    • Интеграция с Hive
    • Сценарии использования
  1. NoSQL в Hadoop
  • Спектр возможностей NoSQL в экосистеме Hadoop
  • Apache HBase – для real-time доступа на чтение и запись
    • Архитектура решенияконцепция CRUD,
    • Проектирование базы данных, выбор column family
    • Сценарии использования HBase
    • Использование Apache Phoenix для HBase
  1. Организация хранилища MPP NoSQL на примере Greenplum/ArenadataDB
  • Концепция MPP и её реализация в Greenplum/ArenadataDB.
    • Загрузка и распределение данных. Сегментирование таблиц. Индексация
    • Внешние таблицы, реплицированные таблицы, consistent hashing
    • Оптимизация запросов, JOIN
    • Best practices
    • Сценарии использования
  1. OLAP на колоночных базах данных на примере Yandex ClickHouse и Arenadata Quick Marts
  • Особенности реализации
  • Шардирование, партиционирование, индексация
  • Сценарии использования

Поделиться:

409 дней назад
20 марта 10:00 — 24 марта 2023 18:00

Событие пройдет онлайн

Уже есть билет
Ссылка на онлайн-событие рассылается за час до его начала.
Получить ссылку или сделать возврат

Поделиться:

Связь с организатором

Напоминаем, что для того чтобы сделать возврат организатору можно не писать.

На этот адрес придёт ответ от организатора.

Подпишитесь на рассылку организатора

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов