Купить билеты
SPARK: Анализ данных с помощью современного Apache Spark

Курс обучения содержит теоретический минимум, необходимый для эффективного использования всех компонентов Apache Spark: от основ RDD до современных инструментов (Delta Lake, Spark on Kubernetes). Практическая часть включает запуск и настройку компонентов, работу в среде Jupyter Notebook, прикладное использование Спарк для разработки собственных распределенных приложений пакетной и потоковой обработки информации и анализа больших данных.

ИТ и интернет 18+

1. Обзор Apache Spark

    • Архитектура Spark. Обзор компонентов Spark и их назначения

2. Основные абстракции Apache Spark

    • Трансформации и действия, Lazy Evaluation

3. Знакомство с Dataframes

    • Structured API и основная абстракция Spark – Dataframe

4. Знакомство со Spark RDD

    • Low Level API, использование Resilient Distributed Dataset

5. Apache Spark SQL

    • Получение данных из SQL-источников и обработка данных с помощью Spark SQL
    • Отправка данных в SQL СУБД и работа с Hive QL
    • Spark SQL и Hadoop

6. Работа с источниками данных

    • Ввод и вывод в Apache Spark
    • Работа с файлами и базами данных

7. Производительность и параллелизм в Apache Spark

    • Планы выполнения запроса: логические и физические

8. Конфигурирование Apache Spark

    • Принципы конфигурирования и основные настройки

9. Spark Streaming и Structured Streaming

    • Виды потоковой обработки в Apache Spark
    • Особенности исполнения streaming кода
    • Checkpoint в Spark Streaming

10. GraphX и ML

    • Место и особенности графовых моделей в программировании
    • Задачи машинного обучения и проблематика больших данных
    • Основные возможности Spark ML

11. Обработка слабоструктурированных данных

    • Работа с JSON и XML файлами, особенности и возможности

12. Современный Spark

    • pandas API в spark
    • Spark Connect: долгоживущие сессии
    • Spark on Kubernetes (будущее в настоящем)
    • Delta Lake – технологическая основа LakeHouse
    • Подробна яинформация о программе: bigdataschool.ru/courses/apache-spa...

Поделиться:

Серия событий
Ближайшее через 11 дней в 14:00

Событие пройдет онлайн

Поделиться:

Связь с организатором

Напоминаем, что для того чтобы сделать возврат организатору можно не писать.

На этот адрес придёт ответ от организатора.

По номеру с вами свяжется организатор

Подпишитесь на рассылку организатора

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов