Обработка Данных с Microsoft HDInsight

Цель курса – предоставить слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.
Аудитория
Этот курс предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков желающих использовать HDInsight и язык R в своих проектах.
По окончании курса слушатели смогут:
  • Описать Hadoop, MapReduce, HDInsight
  • Описать типы кластеров HDInsight
  • Описать создание, управление и удаление кластеров HDInsight с помощью PowerShell.
  • Описать, как разрешать доступ пользователей к объектам.
  • Описать конфигурации и архитектуру хранилища HDInsight.
  • Проводить мониторинг ресурсов с Operations management suite.
    • Выполнять запросы с Hive и Pig
    • Описать использование ETL и Spark
    • Внедрить интерактивные запросы
    • Выполнить интерактивную обработку данных с помощью Apache Phoenix
    • Управлять задачами потоковой аналитики
    • Создать приложения для обработки структурированных потоков в Spark.
    • Использовать потоковые данные в Storm
  • Объяснить, как работает язык R
  • Преобразовывать и зачищать наборы данных
Модуль 1: Начало работы с HDInsight
Этот модуль описывает возможности Hadoop, парадигмы MapReduce и основы работы с HDInsight.
Темы
  • Большие данные
  • Hadoop
  • MapReduce
  • HDInsight
Лабораторная работа: Запросы к большим данным
  • Запросы к данным с Hive
  • Запросы к данным с Excel
Модуль 2: Развертывание кластеров HDInsight
Этот модуль описывает процедуру развёртывания кластеров HDInsight.
Темы
  • Типы кластеров HDInsight
  • Управление кластерами HDInsight
  • Управление кластерами HDInsight с помощью PowerShell
Лабораторная работа: Управление кластерами HDInsight в Azure
  • Создать кластер Hadoop в HDInsight
  • Настроить HDInsight с помощью скрипта
  • Настроить HDInsight с помощью Bootstrap
  • Удалить кластер HDInsight
Модуль 3: Авторизация пользователей для доступа к ресурсам
Этот модуль описывает, как назначать права и выдавать разрешения для пользователей в Azure.
Темы
  • Недоменные кластеры
  • Настройка кластера HDInsight, подключенного к домену
  • Управление подключенным к домену кластером HDInsight
Лабораторная работа: Авторизация пользователей для доступа к ресурсам
  • Настройка кластера HDInsight, подключенного к домену
  • Настроить политики Hive
Модуль 4: Загрузка данных в HDInsight
Этот модуль описывает способы загрузки данных в HDInsigh.
Темы
  • Хранилище HDInsigh
  • Средства загрузки данных
  • Производительность и надёжность
Лабораторная работа: Загрузка данных в HDInsight
  • Загрузка данных с помощью Sqoop
  • С помощью загрузка данных в AZcopy
  • Загрузка данных с помощью ADLcopy
  • Использовать HDInsight для сжатия данных
Модуль 5: Поиск и устранение неисправностей в HDInsight
Этот модуль описаны способы устранения неполадок в HDInsight.
Темы
  • Анализ журналов
  • Журналы YARN
  • Дампы кучи (Heap)
  • Operations management suite
Лабораторная работа: Поиск и устранение неисправностей в HDInsight
  • Анализ журналов HDInsight
  • Анализ журналов YARN
  • Мониторинг ресурсов с Operations management suite
Модуль 6: Внедрение пакетных решений
Этот модуль объясняет, как реализовать пакетные решения.
Темы
  • Хранилище Apache Hive
  • Запросы с Hive и Pig
  • Подключение HDInsight
Лабораторная работа: Резервное копирование баз данных SQL Server
  • Загрузка данных в таблицу Hive
  • Запрос данных в Hive и Pig
Модуль 7: Проектирование пакетных решений ETL для больших данных с помощью Spark
В этом модуле описывается, как проектировать пакетные решения ETL для больших данных с помощью Spark.
Темы
  • Что такое Spark?
  • ETL и Spark
  • Производительность Spark
Лабораторная работа: Проектирование пакетных решений ETL для больших данных с помощью Spark
  • Создание кластера HDInsight с доступом к хранилищу Data Lake
  • Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake
  • Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight
  • Управление ресурсами кластера Apache Spark в Azure HDInsight
Модуль 8: Анализ данных со Spark SQL
Этот модуль описывает, как анализировать данные со Spark SQL.
Темы
  • Внедрение интерактивных запросов
  • Проведение исследовательского анализа данных
Лабораторная работа: Анализ данных со Spark SQL
  • Внедрение интерактивных запросов
  • Проведение исследовательского анализа данных
Модуль 9: Анализ данных с помощью Hive и Phoenix
Этот модуль описывает, как анализировать данные с помощью Hive и Phoenix.
Темы
  • Внедрение интерактивных запросов для больших данных с помощью Hive.
  • Проведение исследовательского анализа данных с помощью Hive
  • Выполнение интерактивной обработки данных с помощью Apache Phoenix
Лабораторная работа: Анализ данных с помощью Hive и Phoenix
  • Внедрение интерактивных запросов для больших данных с помощью Hive.
  • Проведение исследовательского анализа данных с помощью Hive
  • Выполнение интерактивной обработки данных с помощью Apache Phoenix
Модуль 10: Потоковая аналитика
Этот модуль описывает потоковую аналитику в Azure.
Темы
  • Потоковая аналитика
  • Обработка потоковых данных из потоковой аналитики
  • Управление задачами потоковой аналитики
Лабораторная работа: Внедрение потоковой аналитики
  • Обработка потоковых данных из потоковой аналитики
  • Управление задачами потоковой аналитики
Модуль 11: Spark Streaming и DStream API
Этот модуль знакомит с DStream API и описывает, как в Spark создать приложения для обработки структурированных потоков.
Темы
  • DStream
  • Создание приложений для обработки структурированных потоков в Spark
  • Стабильность и визуализация
Лабораторная работа: Использование DStream API для создания приложений Spark Streaming
  • Создание приложения Spark Streaming с помощью DStream API
  • Создание приложения для обработки структурированных потоков в Spark
Модуль 12: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
В этом модуле рассказано, как обрабатывать большие данные в режиме реального времени с помощью Apache Storm.
Темы
  • Долго хранимые данные
  • Потоковые данные в Storm
  • Создание топологии Storm
  • Настройка Apache Storm
Лабораторная работа: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
  • Потоковые данные в Storm
  • Создание топологии Storm
Модуль 13: Анализ данных с помощью Spark SQL
Этот модуль объясняет, как анализировать данные с помощью Spark SQL.
Темы
  • Внедрение интерактивных запросов
  • Проведение исследовательского анализа данных
Лабораторная работа: Анализ данных с помощью Spark SQL
  • Внедрение интерактивных запросов
  • Проведение исследовательского анализа данных
Для эффективного обучения на курсе, слушатели должны обладать следующими знаниями и навыками:
  • Опыт программирования на R и знание распространенных пакетов R
  • Знания общих статистических методов анализа данных и лучших практик.
  • Основные сведения о операционных системах Microsoft Windows.
  • Опыт работы с реляционными базами данных.

Запись на курс

Код курса20775
Длительность5д (40ч)
Код экзамена
Стоимость без НДС15 000 грн.
Ближайшие даты
  • 15.01.2018
  • 26.02.2018
  • 09.04.2018