Обработка данных с Microsoft HDInsight
Цель курса – предоставить слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.
Аудитория
Этот курс предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков желающих использовать HDInsight и язык R в своих проектах.
По окончании курса слушатели смогут:
- Описать Hadoop, MapReduce, HDInsight
- Описать типы кластеров HDInsight
- Описать создание, управление и удаление кластеров HDInsight с помощью PowerShell.
- Описать, как разрешать доступ пользователей к объектам.
- Описать конфигурации и архитектуру хранилища HDInsight.
- Проводить мониторинг ресурсов с Operations management suite.
- Выполнять запросы с Hive и Pig
- Описать использование ETL и Spark
- Внедрить интерактивные запросы
- Выполнить интерактивную обработку данных с помощью Apache Phoenix
- Управлять задачами потоковой аналитики
- Создать приложения для обработки структурированных потоков в Spark.
- Использовать потоковые данные в Storm
- Объяснить, как работает язык R
- Преобразовывать и зачищать наборы данных
Модуль 1: Начало работы с HDInsight
Этот модуль описывает возможности Hadoop, парадигмы MapReduce и основы работы с HDInsight.
Темы
- Большие данные
- Hadoop
- MapReduce
- HDInsight
Лабораторная работа: Запросы к большим данным
- Запросы к данным с Hive
- Запросы к данным с Excel
Модуль 2: Развертывание кластеров HDInsight
Этот модуль описывает процедуру развёртывания кластеров HDInsight.
Темы
- Типы кластеров HDInsight
- Управление кластерами HDInsight
- Управление кластерами HDInsight с помощью PowerShell
Лабораторная работа: Управление кластерами HDInsight в Azure
- Создать кластер Hadoop в HDInsight
- Настроить HDInsight с помощью скрипта
- Настроить HDInsight с помощью Bootstrap
- Удалить кластер HDInsight
Модуль 3: Авторизация пользователей для доступа к ресурсам
Этот модуль описывает, как назначать права и выдавать разрешения для пользователей в Azure.
Темы
- Недоменные кластеры
- Настройка кластера HDInsight, подключенного к домену
- Управление подключенным к домену кластером HDInsight
Лабораторная работа: Авторизация пользователей для доступа к ресурсам
- Настройка кластера HDInsight, подключенного к домену
- Настроить политики Hive
Модуль 4: Загрузка данных в HDInsight
Этот модуль описывает способы загрузки данных в HDInsigh.
Темы
- Хранилище HDInsigh
- Средства загрузки данных
- Производительность и надёжность
Лабораторная работа: Загрузка данных в HDInsight
- Загрузка данных с помощью Sqoop
- С помощью загрузка данных в AZcopy
- Загрузка данных с помощью ADLcopy
- Использовать HDInsight для сжатия данных
Модуль 5: Поиск и устранение неисправностей в HDInsight
Этот модуль описаны способы устранения неполадок в HDInsight.
Темы
- Анализ журналов
- Журналы YARN
- Дампы кучи (Heap)
- Operations management suite
Лабораторная работа: Поиск и устранение неисправностей в HDInsight
- Анализ журналов HDInsight
- Анализ журналов YARN
- Мониторинг ресурсов с Operations management suite
Модуль 6: Внедрение пакетных решений
Этот модуль объясняет, как реализовать пакетные решения.
Темы
- Хранилище Apache Hive
- Запросы с Hive и Pig
- Подключение HDInsight
Лабораторная работа: Резервное копирование баз данных SQL Server
- Загрузка данных в таблицу Hive
- Запрос данных в Hive и Pig
Модуль 7: Проектирование пакетных решений ETL для больших данных с помощью Spark
В этом модуле описывается, как проектировать пакетные решения ETL для больших данных с помощью Spark.
Темы
- Что такое Spark?
- ETL и Spark
- Производительность Spark
Лабораторная работа: Проектирование пакетных решений ETL для больших данных с помощью Spark
- Создание кластера HDInsight с доступом к хранилищу Data Lake
- Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake
- Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight
- Управление ресурсами кластера Apache Spark в Azure HDInsight
Модуль 8: Анализ данных со Spark SQL
Этот модуль описывает, как анализировать данные со Spark SQL.
Темы
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
Лабораторная работа: Анализ данных со Spark SQL
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
Модуль 9: Анализ данных с помощью Hive и Phoenix
Этот модуль описывает, как анализировать данные с помощью Hive и Phoenix.
Темы
- Внедрение интерактивных запросов для больших данных с помощью Hive.
- Проведение исследовательского анализа данных с помощью Hive
- Выполнение интерактивной обработки данных с помощью Apache Phoenix
Лабораторная работа: Анализ данных с помощью Hive и Phoenix
- Внедрение интерактивных запросов для больших данных с помощью Hive.
- Проведение исследовательского анализа данных с помощью Hive
- Выполнение интерактивной обработки данных с помощью Apache Phoenix
Модуль 10: Потоковая аналитика
Этот модуль описывает потоковую аналитику в Azure.
Темы
- Потоковая аналитика
- Обработка потоковых данных из потоковой аналитики
- Управление задачами потоковой аналитики
Лабораторная работа: Внедрение потоковой аналитики
- Обработка потоковых данных из потоковой аналитики
- Управление задачами потоковой аналитики
Модуль 11: Spark Streaming и DStream API
Этот модуль знакомит с DStream API и описывает, как в Spark создать приложения для обработки структурированных потоков.
Темы
- DStream
- Создание приложений для обработки структурированных потоков в Spark
- Стабильность и визуализация
Лабораторная работа: Использование DStream API для создания приложений Spark Streaming
- Создание приложения Spark Streaming с помощью DStream API
- Создание приложения для обработки структурированных потоков в Spark
Модуль 12: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
В этом модуле рассказано, как обрабатывать большие данные в режиме реального времени с помощью Apache Storm.
Темы
- Долго хранимые данные
- Потоковые данные в Storm
- Создание топологии Storm
- Настройка Apache Storm
Лабораторная работа: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
- Потоковые данные в Storm
- Создание топологии Storm
Модуль 13: Анализ данных с помощью Spark SQL
Этот модуль объясняет, как анализировать данные с помощью Spark SQL.
Темы
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
Лабораторная работа: Анализ данных с помощью Spark SQL
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
Для эффективного обучения на курсе, слушатели должны обладать следующими знаниями и навыками:
- Опыт программирования на R и знание распространенных пакетов R
- Знания общих статистических методов анализа данных и лучших практик.
- Основные сведения о операционных системах Microsoft Windows.
- Опыт работы с реляционными базами данных.
Запись на курс
Код курса | WBD-2 |
---|---|
Длительность | 5 д (40 ч) |
Код экзамена | |
Стоимость без НДС | 25 000 грн. |