SPOT: Потоковая обработка в Apache Spark

2-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют или планируют использовать Spark для обработки и анализа больших данных

ИТ и интернет 16+

1. Введение в потоковую обработку

  • Потоковая и пакетная обработка данных
  • Особенности потоковой обработки
  • Надежность и потоковая обработка.

2. Потоковая обработка в Apache Spark

  • Два вида потоков (на основе RDD и Dataframe)
  • Парадигма потоковой обработки в Structured Streaming
  • Источники (sources и sink).

3. Совместное использование Batch и Streaming

  • Трансформации и действия в Apache Spark
  • Объединение данных в Spark (join)
  • Особенности использования трансформаций при работе с потоковыми данными

4. Источники потоковых данных

  • Файловый источник данных
  • Apache Kafka как источник данных
  • Другие источники потоковых данных

5. Обеспечение надежности потоковой обработки в Apache Spark

  • Механизм checkpoint в Apache Spark
  • Настройка streaming checkpoint

Поделиться:

409 дней назад
13 февраля 10:00 — 14 февраля 2023 17:30

Событие пройдет онлайн

Поделиться:

Связь с организатором

Напоминаем, что для того чтобы сделать возврат организатору можно не писать.

На этот адрес придёт ответ от организатора.

Подпишитесь на рассылку организатора

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов