Обробка даних с Microsoft HDInsight

Мета курсу - надати слухачам знання та навички, необхідні для роботи з масивами великих даних, планування та впровадження робочих потоків за допомогою HDInsight.

Аудиторія

Цей курс призначений для інженерів, архітекторів, фахівців з підготовки даних, а також розробників бажаючих використовувати HDInsight і мову R в своїх проектах.

Після закінчення курсу слухачі зможуть:

Описати Hadoop, MapReduce, HDInsight
Описати типи кластерів HDInsight
Описати створення, управління і видалення кластерів HDInsight за допомогою PowerShell.
Описати як вирішувати доступ користувачів до об'єктів.
- Описати конфігурації і архітектуру сховища HDInsight.
Проводити моніторинг ресурсів з Operations management suite.
Виконувати запити з Hive і Pig
Описати використання ETL і Spark
Впровадити інтерактивні запити
Виконати інтерактивну обробку даних за допомогою Apache Phoenix
Керувати завданнями потокової аналітики
Створити додатки для обробки структурованих потоків в Spark.
Використовувати потокові дані в Storm
Пояснити, як працює мова R
Перетворювати і зачищати набори даних

Модуль 1: Початок роботи з HDInsight

Цей модуль описує можливості Hadoop, парадигми MapReduce і основи роботи з HDInsight.

Теми

Великі дані
Hadoop
MapReduce
HDInsight

Лабораторна робота: Запити до великих даними

Запити до даних з Hive
Запити до даних з Excel

Модуль 2: Розгортання кластерів HDInsight

Цей модуль описує процедуру розгортання кластерів HDInsight.

Теми

Типи кластерів HDInsight
Управління кластерами HDInsight
Управління кластерами HDInsight за допомогою PowerShell

Лабораторна робота: Управління кластерами HDInsight в Azure

Створити кластер Hadoop в HDInsight
Налаштувати HDInsight за допомогою скрипта
Налаштувати HDInsight за допомогою Bootstrap
Видалити кластер HDInsight

Модуль 3: Авторизація користувачів для доступу до ресурсів

Цей модуль описує як призначати права і видавати дозволи для користувачів в Azure.

Теми

Недоменні кластери
Налаштування кластера HDInsight, підключеного до домену
Управління підключеним до домену кластером HDInsight

Лабораторна робота: Авторизація користувачів для доступу до ресурсів

Налаштування кластера HDInsight, підключеного до домену
Налаштувати політики Hive

Модуль 4: Завантаження даних в HDInsight

Цей модуль описує способи завантаження даних в HDInsigh.

Теми

Сховище HDInsigh
Засоби завантаження даних
Продуктивність і надійність

Лабораторна робота: Завантаження даних в HDInsight

Завантаження даних за допомогою Sqoop
За допомогою завантаження даних в AZcopy
Завантаження даних за допомогою ADLcopy
Використовувати HDInsight для стиснення даних

Модуль 5: Пошук і усунення неполадок в HDInsight

Цей модуль описані способи усунення неполадок в HDInsight.

Теми

Аналіз журналів
Журнали YARN
Дампи купи (Heap)
Operations management suite

Лабораторна робота: Пошук і усунення неполадок в HDInsight

Аналіз журналів HDInsight
Аналіз журналів YARN
Моніторинг ресурсів з Operations management suite

Модуль 6: Впровадження пакетних рішень

Цей модуль пояснює як реалізувати пакетні рішення.

Теми

Сховище Apache Hive
Запити з Hive і Pig
Підключення HDInsight

Лабораторна робота: Створення резервних копій баз даних SQL Server

Завантаження даних в таблицю Hive
Запит даних в Hive і Pig

Модуль 7: Проектування пакетних рішень ETL для великих даних за допомогою Spark

У цьому модулі описується як проектувати пакетні рішення ETL для великих даних за допомогою Spark.

Теми

Що таке Spark?
ETL і Spark
Продуктивність Spark

Лабораторна робота: Проектування пакетних рішень ETL для великих даних за допомогою Spark

Створення кластера HDInsight з доступом до сховища Data Lake
Використання кластера Spark в HDInsight для аналізу даних в сховищі Data Lake
Аналіз журналів сайту за допомогою налаштованої бібліотеки кластера Apache Spark в HDInsight
Управління ресурсами кластера Apache Spark в Azure HDInsight

Модуль 8: Аналіз даних зі Spark SQL

Цей модуль описує, як аналізувати дані зі Spark SQL.

Теми

Впровадження інтерактивних запитів
Проведення дослідницького аналізу даних

Лабораторна робота: Аналіз даних зі Spark SQL

Впровадження інтерактивних запитів
Проведення дослідницького аналізу даних

Модуль 9: Аналіз даних за допомогою Hive і Phoenix

Цей модуль описує як аналізувати дані за допомогою Hive і Phoenix.

Теми

Впровадження інтерактивних запитів для великих даних за допомогою Hive.
Проведення дослідницького аналізу даних за допомогою Hive
Виконання інтерактивної обробки даних за допомогою Apache Phoenix

Лабораторна робота: Аналіз даних за допомогою Hive і Phoenix

Впровадження інтерактивних запитів для великих даних за допомогою Hive.
Проведення дослідницького аналізу даних за допомогою Hive
Виконання інтерактивної обробки даних за допомогою Apache Phoenix

Модуль 10: Потокова аналітика

Цей модуль описує потокову аналітику в Azure.

Теми

Потокова аналітика
Обробка потокових даних з потокової аналітики
Управління завданнями потокової аналітики

Лабораторна робота: Впровадження потокової аналітики

Обробка потокових даних з потокової аналітики
Управління завданнями потокової аналітики

Модуль 11: Spark Streaming і DStream API

Цей модуль знайомить з DStream API і описує, як в Spark створити додатки для обробки структурованих потоків.

Теми

DStream
Створення додатків для обробки структурованих потоків в Spark
Стабільність і візуалізація

Лабораторна робота: Використання DStream API для створення додатків Spark Streaming

Створення програми Spark Streaming за допомогою DStream API
Створення програми для обробки структурованих потоків в Spark

Модуль 12: Розробка рішень обробки великих даних в режимі реального часу за допомогою Apache Storm

У цьому модулі розказано як обробляти великі дані в режимі реального часу за допомогою Apache Storm.

Теми

Дані, які довго зберігаються
Потокові дані в Storm
Створення топології Storm
Налаштування Apache Storm

Лабораторна робота: Розробка рішень обробки великих даних в режимі реального часу за допомогою Apache Storm

Потокові дані в Storm
Створення топології Storm

Модуль 13: Аналіз даних за допомогою Spark SQL

Цей модуль пояснює, як аналізувати дані за допомогою Spark SQL.

Теми

Впровадження інтерактивних запитів
Проведення дослідницького аналізу даних

Лабораторна робота: Аналіз даних за допомогою Spark SQL

Впровадження інтерактивних запитів
Проведення дослідницького аналізу даних

Для ефективного навчання на курсі слухачі повинні володіти такими знаннями і навичками:

Досвід програмування на R і знання поширених пакетів R
Знання загальних статистичних методів аналізу даних і кращих практик.
Основні відомості про операційні сисТеми Microsoft Windows.
Досвід роботи з реляційними базами даних.

Запис на курс

Код курсу	WBD-2
Тривалість	5 д (40 ч)
Код екзамену
Вартість без ПДВ	35 000 грн.

Обробка даних с Microsoft HDInsight

У зв'язку з карантином всі наші курси читаються у online-форматі.