ПРОГРАММА КУРСА
1. Обзор Apache Spark
- Архитектура Spark
- Обзор компонентов Spark и их назначения
- Spark API и разработка программ.
2. Основные абстракции – знакомство со Spark RDD и Dataframe
- Low Level API, использование Resilient Distributed Dataset
- Structured API и основная абстракция Spark – Dataframe
- Основные трансформации и действия.
3. Работа с источниками данных
- Ввод и вывод данных в Spark
- Работа с файлами и базами данных
- Совместная работа с Apache Hive
4. Apache Spark SQL
- Получение данных из SQL-источников
- Обработка данных с помощью Spark SQL
- Интероперабельность Dataframe и SQL
5. Основы настройки и конфигурирования
- Знакомство с основными Shell
- Запуск приложений с помощью spark-submit
- Конфигурирование Spark
- Планы запросов и Web GUI