NOSQL: КУРС ИНТЕГРАЦИЯ HADOOP И NOSQL

ИТ и интернет 18+

Apache Sqoop – основные принципы:
- простой импорт и экспорт данных из реляционных источников
- сценарии применения
Apache Spark – обзор возможностей:
- импорт и экспорт данных из реляционных источников и файлов
- нагруженный импорт данных с преобразованием для вложенных, JSON, XML форматов
Особенности использования форматов хранения файлов AVRO, ORC, Parquet.

Организация Hadoop SQL интерфейса доступа к данным на файловой системе HDFS

Apache Hive – интерфейс доступа для batch-процессинга данных на HDFS
- Основные компоненты системы
- Batch процессинг с использованием движков MapReduce/Tez, LLAP, Spark – особенности
- Тюнинг JOIN операций
- Сценарии использования
Cloudera Impala – OLAP аналитика данных в MPP Hadoop
- Особенности решения
- Интеграция с Hive и HBase
- Форматы файлов для Cloudera Impala (Parquet, ORC)
- Особенности JOIN-операций
- Сценарии использования
Spark SQL
- Возможности фреймворка и предоставляемые API
- Сложные преобразования и агрегация с использованием Spark SQL
- Интеграция с Hive
- Сценарии использования

Спектр возможностей NoSQL в экосистеме Hadoop
Apache HBase – для real-time доступа на чтение и запись
- Архитектура решения, концепция CRUD,
- Проектирование базы данных, выбор column family
- Сценарии использования HBase
- Использование Apache Phoenix для HBase

Концепция MPP и её реализация в Greenplum/ArenadataDB.
- Загрузка и распределение данных. Сегментирование таблиц. Индексация
- Внешние таблицы, реплицированные таблицы, consistent hashing
- Оптимизация запросов, JOIN
- Best practices
- Сценарии использования

OLAP на колоночных базах данных на примере Yandex ClickHouse и Arenadata Quick Marts

Регистрация

569 дней назад
24 октября 10:00 — 28 октября 2022 18:00

Событие пройдет онлайн

Уже есть билет
Ссылка на онлайн-событие рассылается за час до его начала.
Получить ссылку