HADM: КУРС АДМИНИСТРИРОВАНИЕ КЛАСТЕРА HADOOP

5 дней практического обучения работе с кластером Hadoop: установка и настройка, обеспечение безопасности (Kerberos, Apache Ranger), мониторинг, репликация и резервное копирование, взаимодействие с компонентами экосистемы Hadoop (Apache Spark, Hive, Sqoop, HBase), работа с HDFS и MapReduce.

ИТ и интернет 16+

ПРОГРАММА КУРСА “АДМИНИСТРИРОВАНИЕ КЛАСТЕРА HADOOP”

  1. Введение в Big Data
    • Что такое BigData. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • Принципы формирования Data Lake и pipelines
  2. Архитектура Apache Hadoop
    • Hadoop сервисы и основные компоненты. Name nodeDataNode.
    • YARN сервис-планировщик
    • Демоны HDFS
    • Отказоустойчивость и высокая доступность
  3. Hadoop Distributed File System
    • Архитектура HDFS. Блоки HDFS.
    • Основные команды работы с HDFS.
    • Операции чтения и записи, назначения HDFS
    • Дисковые квоты. Поддержка компрессии
    • Основные форматы хранения данных TXTXML, JSON, AVROORCParquetSequence файлы
    • Импорт (загрузка) данных на HDFS
    • Организация Tiering для хранения данных
    • Архивное хранение HDFS
    • Локальное чтение и распределенное кэширование
  4. Map Reduce
    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduceYARN MapReduce 3
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce
  5. Дизайн кластера Hadoop
    • Сравнение дистрибутивов и версий Hadoop 2/3 (Cloudera Distributed Hadoop CDPHorton Works Data Platform, Arenadata Hadoop): различия и ограничения
    • Требования программного и аппаратного обеспечения
    • Планирование кластера
    • Масштабирование кластера Hadoop. Отказоустойчивость Hadoop
    • Federated Name NodeHadoop в облаке.
    • Сравнение Cloud решений для Hadoop. Amazon EMR
  6. Установка кластера Cloudera Data Platform
    • Оптимизация OS для узлов кластера
    • Установка Hadoop-кластера с использованием Cloudera Data Platform Private Cloud
    • Выбор начальной конфигурации
    • Начальная конфигурация HDFS и MapReduce
    • Файлы логов и конфигураций
    • Установка Hadoop клиентов
    • Установка Hadoop кластера в облаке
    • Автоматические варианты установки
    • Установка и настройка кластера Hadoop в изолированном окружении (offline).
  7. Операции обслуживания кластера Hadoop
    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск (Graceful Shutdown)
    • Управление узлами
    • Управление обновлениями и создание локального репозитория
  8. Оптимизация и управление ресурсами
    • Поиск узких мест
    • Производительность. Файловая система. Data Node и Data layout и партиционирование, bucketing
    • ПланировщикиFIFO scheduler. Планировщик емкости (Capacity Scheduler). Гранулярное управление ресурсами (Fair Scheduler). Защита очередей и доминантное управление ресурсами DRF.
    • Особенности управления ресурсами для разных дистрибутивов
  9. Управление кластером Hadoop с использованием Cloudera Manager
    • Основные операции и задачи ClouderaManager
    • Мониторинг с Cloudera Manager
    • Диагностика и разрешение проблем с Cloudera Manager
    • Обзор Apache Zookeeper
    • Cloudera Manager API
  10. Безопасность Apache Hadoop
    • Безопасность по умолчанию
    • Многопользовательский режим
    •  Аутентификация и авторизация с использованием Active Directory(Microsoft), REALM MIT/FreeIPA: Kerberoskeytabsprincipals. Установка и конфигурирование Kerberos в Hadoop
    • Обзор возможностей компонент безопасности Apache Ranger, Apache Knox, Apache Atlas
    • Резервное копирование и аварийное восстановление
    • Репликация данных и snapshoting. Конфигурирование высокой доступности NameNode (HA)
    • Best practices Cloudera/ Arenadata
  11. Мониторинг Apache Hadoop
    • Встроенные средства мониторинга Cloudera Manager
    • Логи сервисов и компонент
  12. Troubleshooting
    • Data Node
    • Name Node
    • Восстановление Name Node
  13. Инструментарий Apache Hadoop экосистемы
    • Графический интерфейс сервиса HUE/Zeppelin 
    • Основы  Apache Zookeeper
    • Введение в Hadoop SQL: Apache Hive, понятие Hive-таблицы, установка Hive
    • Использование Apache Sqoop – установка и выполнение базовых операций
    • Обзор и назначение компонент: Apache Spark, Apache Solr, Cloudera Impala, Apache HBase, Apache Phoenix, Apache NiFi, Apache Kafka, Apache Oozie

ПРИМЕРНЫЙ СПИСОК ПРАКТИЧЕСКИХ ЗАНЯТИЙ:

  • Ручная установка 3х-узлового кластера Hadoop версии 3 с дистрибутива Cloudera Data Platform (CDP) Private Cloud  в облаке Amazon Web Services с использованием Cloudera Manager
  • Базовые операции с кластером Hadoop и файловые операции HDFS.
  • Управление ресурсами и запуском задач с использованием YARN, Map Reduce/Tez
  • Управление кластером с использованием Cloudera Manager (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
  • Конфигурирование системы аутентификации Kerberos для кластера Hadoop под управление Cloudera Manager
  • Установка и выполнение базовых операций в Apache HiveApache Sqoop
  • Выполнение задач в веб-интерфейсе HUE/Apache Zeppelin
  • HA высокая доступность (High Availablility) NameNode и YARN (ресурс-менеджер) .

Поделиться:

730 дней назад
16 мая 10:00 — 20 мая 2022 18:00

Событие пройдет онлайн

Уже есть билет
Ссылка на онлайн-событие рассылается за час до его начала.
Получить ссылку

Поделиться:

Связь с организатором

На этот адрес придёт ответ от организатора.

Подпишитесь на рассылку организатора

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов