Обработка данных с Microsoft HDInsight

Цель курса – предоставить слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.

Аудитория

Этот курс предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков желающих использовать HDInsight и язык R в своих проектах.

По окончании курса слушатели смогут:

Описать Hadoop, MapReduce, HDInsight
Описать типы кластеров HDInsight
Описать создание, управление и удаление кластеров HDInsight с помощью PowerShell.
Описать, как разрешать доступ пользователей к объектам.
Описать конфигурации и архитектуру хранилища HDInsight.

Проводить мониторинг ресурсов с Operations management suite.
- Выполнять запросы с Hive и Pig
- Описать использование ETL и Spark
- Внедрить интерактивные запросы
- Выполнить интерактивную обработку данных с помощью Apache Phoenix
- Управлять задачами потоковой аналитики
- Создать приложения для обработки структурированных потоков в Spark.
- Использовать потоковые данные в Storm
Объяснить, как работает язык R
Преобразовывать и зачищать наборы данных

Модуль 1: Начало работы с HDInsight

Этот модуль описывает возможности Hadoop, парадигмы MapReduce и основы работы с HDInsight.

Темы

Большие данные
Hadoop
MapReduce
HDInsight

Лабораторная работа: Запросы к большим данным

Запросы к данным с Hive
Запросы к данным с Excel

Модуль 2: Развертывание кластеров HDInsight

Этот модуль описывает процедуру развёртывания кластеров HDInsight.

Темы

Типы кластеров HDInsight
Управление кластерами HDInsight
Управление кластерами HDInsight с помощью PowerShell

Лабораторная работа: Управление кластерами HDInsight в Azure

Создать кластер Hadoop в HDInsight
Настроить HDInsight с помощью скрипта
Настроить HDInsight с помощью Bootstrap
Удалить кластер HDInsight

Модуль 3: Авторизация пользователей для доступа к ресурсам

Этот модуль описывает, как назначать права и выдавать разрешения для пользователей в Azure.

Темы

Недоменные кластеры
Настройка кластера HDInsight, подключенного к домену
Управление подключенным к домену кластером HDInsight

Лабораторная работа: Авторизация пользователей для доступа к ресурсам

Настройка кластера HDInsight, подключенного к домену
Настроить политики Hive

Модуль 4: Загрузка данных в HDInsight

Этот модуль описывает способы загрузки данных в HDInsigh.

Темы

Хранилище HDInsigh
Средства загрузки данных
Производительность и надёжность

Лабораторная работа: Загрузка данных в HDInsight

Загрузка данных с помощью Sqoop
С помощью загрузка данных в AZcopy
Загрузка данных с помощью ADLcopy
Использовать HDInsight для сжатия данных

Модуль 5: Поиск и устранение неисправностей в HDInsight

Этот модуль описаны способы устранения неполадок в HDInsight.

Темы

Анализ журналов
Журналы YARN
Дампы кучи (Heap)
Operations management suite

Лабораторная работа: Поиск и устранение неисправностей в HDInsight

Анализ журналов HDInsight
Анализ журналов YARN
Мониторинг ресурсов с Operations management suite

Модуль 6: Внедрение пакетных решений

Этот модуль объясняет, как реализовать пакетные решения.

Темы

Хранилище Apache Hive
Запросы с Hive и Pig
Подключение HDInsight

Лабораторная работа: Резервное копирование баз данных SQL Server

Загрузка данных в таблицу Hive
Запрос данных в Hive и Pig

Модуль 7: Проектирование пакетных решений ETL для больших данных с помощью Spark

В этом модуле описывается, как проектировать пакетные решения ETL для больших данных с помощью Spark.

Темы

Что такое Spark?
ETL и Spark
Производительность Spark

Лабораторная работа: Проектирование пакетных решений ETL для больших данных с помощью Spark

Создание кластера HDInsight с доступом к хранилищу Data Lake
Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake
Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight
Управление ресурсами кластера Apache Spark в Azure HDInsight

Модуль 8: Анализ данных со Spark SQL

Этот модуль описывает, как анализировать данные со Spark SQL.

Темы

Внедрение интерактивных запросов
Проведение исследовательского анализа данных

Лабораторная работа: Анализ данных со Spark SQL

Внедрение интерактивных запросов
Проведение исследовательского анализа данных

Модуль 9: Анализ данных с помощью Hive и Phoenix

Этот модуль описывает, как анализировать данные с помощью Hive и Phoenix.

Темы

Внедрение интерактивных запросов для больших данных с помощью Hive.
Проведение исследовательского анализа данных с помощью Hive
Выполнение интерактивной обработки данных с помощью Apache Phoenix

Лабораторная работа: Анализ данных с помощью Hive и Phoenix

Внедрение интерактивных запросов для больших данных с помощью Hive.
Проведение исследовательского анализа данных с помощью Hive
Выполнение интерактивной обработки данных с помощью Apache Phoenix

Модуль 10: Потоковая аналитика

Этот модуль описывает потоковую аналитику в Azure.

Темы

Потоковая аналитика
Обработка потоковых данных из потоковой аналитики
Управление задачами потоковой аналитики

Лабораторная работа: Внедрение потоковой аналитики

Обработка потоковых данных из потоковой аналитики
Управление задачами потоковой аналитики

Модуль 11: Spark Streaming и DStream API

Этот модуль знакомит с DStream API и описывает, как в Spark создать приложения для обработки структурированных потоков.

Темы

DStream
Создание приложений для обработки структурированных потоков в Spark
Стабильность и визуализация

Лабораторная работа: Использование DStream API для создания приложений Spark Streaming

Создание приложения Spark Streaming с помощью DStream API
Создание приложения для обработки структурированных потоков в Spark

Модуль 12: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm

В этом модуле рассказано, как обрабатывать большие данные в режиме реального времени с помощью Apache Storm.

Темы

Долго хранимые данные
Потоковые данные в Storm
Создание топологии Storm
Настройка Apache Storm

Лабораторная работа: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm

Потоковые данные в Storm
Создание топологии Storm

Модуль 13: Анализ данных с помощью Spark SQL

Этот модуль объясняет, как анализировать данные с помощью Spark SQL.

Темы

Внедрение интерактивных запросов
Проведение исследовательского анализа данных

Лабораторная работа: Анализ данных с помощью Spark SQL

Внедрение интерактивных запросов
Проведение исследовательского анализа данных

Для эффективного обучения на курсе, слушатели должны обладать следующими знаниями и навыками:

Опыт программирования на R и знание распространенных пакетов R
Знания общих статистических методов анализа данных и лучших практик.
Основные сведения о операционных системах Microsoft Windows.
Опыт работы с реляционными базами данных.

Запись на курс

Код курса	WBD-2
Длительность	5 д (40 ч)
Код экзамена
Стоимость без НДС	35 000 грн.

Обработка данных с Microsoft HDInsight

У зв'язку з карантином всі наші курси читаються у online-форматі.