5 дней практического обучения работе с кластером Hadoop: установка и настройка, обеспечение безопасности (Kerberos, Apache Ranger), мониторинг, репликация и резервное копирование, взаимодействие с компонентами экосистемы Hadoop (Apache Spark, Hive, Sqoop, HBase), работа с HDFS и MapReduce.
ИТ и интернет16+
ПРОГРАММА КУРСА “АДМИНИСТРИРОВАНИЕ КЛАСТЕРА HADOOP”
Введение в Big Data
Что такое BigData. Понимание проблемы Big Data
Эволюция систем распределенных вычислений Hadoop
Принципы формирования Data Lake и pipelines
Архитектура Apache Hadoop
Hadoop сервисы и основные компоненты. Name node. DataNode.
YARN сервис-планировщик
Демоны HDFS
Отказоустойчивость и высокая доступность
Hadoop Distributed File System
Архитектура HDFS. Блоки HDFS.
Основные команды работы с HDFS.
Операции чтения и записи, назначения HDFS.
Дисковые квоты. Поддержка компрессии
Основные форматы хранения данных TXT, XML, JSON, AVRO, ORC, Parquet, Sequence файлы
Импорт (загрузка) данных на HDFS
Организация Tiering для хранения данных
Архивное хранение HDFS
Локальное чтение и распределенное кэширование
Map Reduce
Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce 3
Ограничения и параметры MapReduce и YARN
Управление запуском пользовательских задач (jobs) под MapReduce
Дизайн кластера Hadoop
Сравнение дистрибутивов и версий Hadoop 2/3 (Cloudera Distributed Hadoop CDP, Horton Works Data Platform, Arenadata Hadoop): различия и ограничения
Установка Hadoop-кластера с использованием Cloudera Data Platform Private Cloud
Выбор начальной конфигурации
Начальная конфигурация HDFS и MapReduce
Файлы логов и конфигураций
Установка Hadoop клиентов
Установка Hadoop кластера в облаке
Автоматические варианты установки
Установка и настройка кластера Hadoop в изолированном окружении (offline).
Операции обслуживания кластера Hadoop
Дисковая подсистема
Квоты
Остановка, запуск, перезапуск (Graceful Shutdown)
Управление узлами
Управление обновлениями и создание локального репозитория
Оптимизация и управление ресурсами
Поиск узких мест
Производительность. Файловая система. Data Node и Data layout и партиционирование, bucketing
Планировщики: FIFO scheduler. Планировщик емкости (Capacity Scheduler). Гранулярное управление ресурсами (Fair Scheduler). Защита очередей и доминантное управление ресурсами DRF.
Особенности управления ресурсами для разных дистрибутивов
Управление кластером Hadoop с использованием Cloudera Manager
Основные операции и задачи ClouderaManager
Мониторинг с Cloudera Manager
Диагностика и разрешение проблем с Cloudera Manager
Обзор Apache Zookeeper
Cloudera Manager API
Безопасность Apache Hadoop
Безопасность по умолчанию
Многопользовательский режим
Аутентификация и авторизация с использованием Active Directory(Microsoft), REALM MIT/FreeIPA: Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop
Обзор возможностей компонент безопасности Apache Ranger, Apache Knox, Apache Atlas
Резервное копирование и аварийное восстановление
Репликация данных и snapshoting. Конфигурирование высокой доступности NameNode (HA)
Best practices Cloudera/ Arenadata
Мониторинг Apache Hadoop
Встроенные средства мониторинга Cloudera Manager
Логи сервисов и компонент
Troubleshooting
Data Node
Name Node
Восстановление Name Node
Инструментарий Apache Hadoop экосистемы
Графический интерфейс сервиса HUE/Zeppelin
Основы Apache Zookeeper
Введение в Hadoop SQL: Apache Hive, понятие Hive-таблицы, установка Hive
Использование ApacheSqoop – установка и выполнение базовых операций
Обзор и назначение компонент: Apache Spark, Apache Solr, Cloudera Impala, Apache HBase, Apache Phoenix, Apache NiFi, Apache Kafka, Apache Oozie
ПРИМЕРНЫЙ СПИСОК ПРАКТИЧЕСКИХ ЗАНЯТИЙ:
Ручная установка 3х-узлового кластера Hadoop версии 3 с дистрибутива Cloudera Data Platform (CDP) Private Cloud в облаке Amazon Web Services с использованием Cloudera Manager
Базовые операции с кластером Hadoop и файловые операции HDFS.
Управление ресурсами и запуском задач с использованием YARN, Map Reduce/Tez.
Управление кластером с использованием Cloudera Manager (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
Конфигурирование системы аутентификации Kerberos для кластера Hadoop под управление Cloudera Manager
Установка и выполнение базовых операций в Apache Hive, Apache Sqoop
Выполнение задач в веб-интерфейсе HUE/Apache Zeppelin
HA высокая доступность (High Availablility) NameNode и YARN (ресурс-менеджер) .
Регистрация
Поделиться:
730 дней назад
16 мая 10:00 — 20 мая 2022 18:00
Событие пройдет онлайн
Уже есть билет
Ссылка на онлайн-событие рассылается за час до его начала.
Получить ссылку
Поделиться:
Получить ссылку на трансляцию
Укажите ваш email, чтобы запросить ссылку у организатора.
Оставаясь на сайте, вы даете согласие на обработку cookie и персональных данных (узнать подробнее). Если вы не хотите, чтобы данные обрабатывались, покиньте сайт.