HADM: КУРС АДМИНИСТРИРОВАНИЕ КЛАСТЕРА HADOOP Копия

5 дней практического обучения работе с кластером Hadoop: установка и настройка, обеспечение безопасности (Kerberos, Apache Ranger), мониторинг, репликация и резервное копирование, взаимодействие с компонентами экосистемы Hadoop (Apache Spark, Hive, Sqoop, HBase), работа с HDFS и MapReduce.

ИТ и интернет 16+

ПРОГРАММА КУРСА “АДМИНИСТРИРОВАНИЕ КЛАСТЕРА HADOOP”

  1. Введение в Big Data
    • Что такое BigData. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • Принципы формирования Data Lake и pipelines
  2. Архитектура Apache Hadoop
    • Hadoop сервисы и основные компоненты. Name nodeDataNode.
    • YARN сервис-планировщик
    • Демоны HDFS
    • Отказоустойчивость и высокая доступность
  3. Hadoop Distributed File System
    • Архитектура HDFS. Блоки HDFS.
    • Основные команды работы с HDFS.
    • Операции чтения и записи, назначения HDFS
    • Дисковые квоты. Поддержка компрессии
    • Основные форматы хранения данных TXTXML, JSON, AVROORCParquetSequence файлы
    • Импорт (загрузка) данных на HDFS
    • Организация Tiering для хранения данных
    • Архивное хранение HDFS
    • Локальное чтение и распределенное кэширование
  4. Map Reduce
    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduceYARN MapReduce 3
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce
  5. Дизайн кластера Hadoop
    • Сравнение дистрибутивов и версий Hadoop 2/3 (Cloudera Distributed Hadoop CDPHorton Works Data Platform, Arenadata Hadoop): различия и ограничения
    • Требования программного и аппаратного обеспечения
    • Планирование кластера
    • Масштабирование кластера Hadoop. Отказоустойчивость Hadoop
    • Federated Name NodeHadoop в облаке.
    • Сравнение Cloud решений для Hadoop. Amazon EMR
  6. Установка кластера Cloudera Data Platform
    • Оптимизация OS для узлов кластера
    • Установка Hadoop-кластера с использованием Cloudera Data Platform Private Cloud
    • Выбор начальной конфигурации
    • Начальная конфигурация HDFS и MapReduce
    • Файлы логов и конфигураций
    • Установка Hadoop клиентов
    • Установка Hadoop кластера в облаке
    • Автоматические варианты установки
    • Установка и настройка кластера Hadoop в изолированном окружении (offline).
  7. Операции обслуживания кластера Hadoop
    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск (Graceful Shutdown)
    • Управление узлами
    • Управление обновлениями и создание локального репозитория
  8. Оптимизация и управление ресурсами
    • Поиск узких мест
    • Производительность. Файловая система. Data Node и Data layout и партиционирование, bucketing
    • ПланировщикиFIFO scheduler. Планировщик емкости (Capacity Scheduler). Гранулярное управление ресурсами (Fair Scheduler). Защита очередей и доминантное управление ресурсами DRF.
    • Особенности управления ресурсами для разных дистрибутивов
  9. Управление кластером Hadoop с использованием Cloudera Manager
    • Основные операции и задачи ClouderaManager
    • Мониторинг с Cloudera Manager
    • Диагностика и разрешение проблем с Cloudera Manager
    • Обзор Apache Zookeeper
    • Cloudera Manager API
  10. Безопасность Apache Hadoop
    • Безопасность по умолчанию
    • Многопользовательский режим
    •  Аутентификация и авторизация с использованием Active Directory(Microsoft), REALM MIT/FreeIPA: Kerberoskeytabsprincipals. Установка и конфигурирование Kerberos в Hadoop
    • Обзор возможностей компонент безопасности Apache Ranger, Apache Knox, Apache Atlas
    • Резервное копирование и аварийное восстановление
    • Репликация данных и snapshoting. Конфигурирование высокой доступности NameNode (HA)
    • Best practices Cloudera/ Arenadata
  11. Мониторинг Apache Hadoop
    • Встроенные средства мониторинга Cloudera Manager
    • Логи сервисов и компонент
  12. Troubleshooting
    • Data Node
    • Name Node
    • Восстановление Name Node
  13. Инструментарий Apache Hadoop экосистемы
    • Графический интерфейс сервиса HUE/Zeppelin 
    • Основы  Apache Zookeeper
    • Введение в Hadoop SQL: Apache Hive, понятие Hive-таблицы, установка Hive
    • Использование Apache Sqoop – установка и выполнение базовых операций
    • Обзор и назначение компонент: Apache Spark, Apache Solr, Cloudera Impala, Apache HBase, Apache Phoenix, Apache NiFi, Apache Kafka, Apache Oozie

ПРИМЕРНЫЙ СПИСОК ПРАКТИЧЕСКИХ ЗАНЯТИЙ:

  • Ручная установка 3х-узлового кластера Hadoop версии 3 с дистрибутива Cloudera Data Platform (CDP) Private Cloud  в облаке Amazon Web Services с использованием Cloudera Manager
  • Базовые операции с кластером Hadoop и файловые операции HDFS.
  • Управление ресурсами и запуском задач с использованием YARN, Map Reduce/Tez
  • Управление кластером с использованием Cloudera Manager (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
  • Конфигурирование системы аутентификации Kerberos для кластера Hadoop под управление Cloudera Manager
  • Установка и выполнение базовых операций в Apache HiveApache Sqoop
  • Выполнение задач в веб-интерфейсе HUE/Apache Zeppelin
  • HA высокая доступность (High Availablility) NameNode и YARN (ресурс-менеджер) .

Поделиться:

434 дня назад
16 января 10:00 — 20 января 2023 18:00

Событие пройдет онлайн

Уже есть билет
Ссылка на онлайн-событие рассылается за час до его начала.
Получить ссылку или сделать возврат

Поделиться:

Связь с организатором

Напоминаем, что для того чтобы сделать возврат организатору можно не писать.

На этот адрес придёт ответ от организатора.

Подпишитесь на рассылку организатора

Возврат билета

Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.

Подробнее о возврате билетов