Обробка даних с Microsoft HDInsight
Мета курсу - надати слухачам знання та навички, необхідні для роботи з масивами великих даних, планування та впровадження робочих потоків за допомогою HDInsight.
Аудиторія
Цей курс призначений для інженерів, архітекторів, фахівців з підготовки даних, а також розробників бажаючих використовувати HDInsight і мову R в своїх проектах.
Після закінчення курсу слухачі зможуть:
- Описати Hadoop, MapReduce, HDInsight
- Описати типи кластерів HDInsight
- Описати створення, управління і видалення кластерів HDInsight за допомогою PowerShell.
- Описати як вирішувати доступ користувачів до об'єктів.
- Описати конфігурації і архітектуру сховища HDInsight.
- Проводити моніторинг ресурсів з Operations management suite.
- Виконувати запити з Hive і Pig
- Описати використання ETL і Spark
- Впровадити інтерактивні запити
- Виконати інтерактивну обробку даних за допомогою Apache Phoenix
- Керувати завданнями потокової аналітики
- Створити додатки для обробки структурованих потоків в Spark.
- Використовувати потокові дані в Storm
- Пояснити, як працює мова R
- Перетворювати і зачищати набори даних
Модуль 1: Початок роботи з HDInsight
Цей модуль описує можливості Hadoop, парадигми MapReduce і основи роботи з HDInsight.
Теми
- Великі дані
- Hadoop
- MapReduce
- HDInsight
Лабораторна робота: Запити до великих даними
- Запити до даних з Hive
- Запити до даних з Excel
Модуль 2: Розгортання кластерів HDInsight
Цей модуль описує процедуру розгортання кластерів HDInsight.
Теми
- Типи кластерів HDInsight
- Управління кластерами HDInsight
- Управління кластерами HDInsight за допомогою PowerShell
Лабораторна робота: Управління кластерами HDInsight в Azure
- Створити кластер Hadoop в HDInsight
- Налаштувати HDInsight за допомогою скрипта
- Налаштувати HDInsight за допомогою Bootstrap
- Видалити кластер HDInsight
Модуль 3: Авторизація користувачів для доступу до ресурсів
Цей модуль описує як призначати права і видавати дозволи для користувачів в Azure.
Теми
- Недоменні кластери
- Налаштування кластера HDInsight, підключеного до домену
- Управління підключеним до домену кластером HDInsight
Лабораторна робота: Авторизація користувачів для доступу до ресурсів
- Налаштування кластера HDInsight, підключеного до домену
- Налаштувати політики Hive
Модуль 4: Завантаження даних в HDInsight
Цей модуль описує способи завантаження даних в HDInsigh.
Теми
- Сховище HDInsigh
- Засоби завантаження даних
- Продуктивність і надійність
Лабораторна робота: Завантаження даних в HDInsight
- Завантаження даних за допомогою Sqoop
- За допомогою завантаження даних в AZcopy
- Завантаження даних за допомогою ADLcopy
- Використовувати HDInsight для стиснення даних
Модуль 5: Пошук і усунення неполадок в HDInsight
Цей модуль описані способи усунення неполадок в HDInsight.
Теми
- Аналіз журналів
- Журнали YARN
- Дампи купи (Heap)
- Operations management suite
Лабораторна робота: Пошук і усунення неполадок в HDInsight
- Аналіз журналів HDInsight
- Аналіз журналів YARN
- Моніторинг ресурсів з Operations management suite
Модуль 6: Впровадження пакетних рішень
Цей модуль пояснює як реалізувати пакетні рішення.
Теми
- Сховище Apache Hive
- Запити з Hive і Pig
- Підключення HDInsight
Лабораторна робота: Створення резервних копій баз даних SQL Server
- Завантаження даних в таблицю Hive
- Запит даних в Hive і Pig
Модуль 7: Проектування пакетних рішень ETL для великих даних за допомогою Spark
У цьому модулі описується як проектувати пакетні рішення ETL для великих даних за допомогою Spark.
Теми
- Що таке Spark?
- ETL і Spark
- Продуктивність Spark
Лабораторна робота: Проектування пакетних рішень ETL для великих даних за допомогою Spark
- Створення кластера HDInsight з доступом до сховища Data Lake
- Використання кластера Spark в HDInsight для аналізу даних в сховищі Data Lake
- Аналіз журналів сайту за допомогою налаштованої бібліотеки кластера Apache Spark в HDInsight
- Управління ресурсами кластера Apache Spark в Azure HDInsight
Модуль 8: Аналіз даних зі Spark SQL
Цей модуль описує, як аналізувати дані зі Spark SQL.
Теми
- Впровадження інтерактивних запитів
- Проведення дослідницького аналізу даних
Лабораторна робота: Аналіз даних зі Spark SQL
- Впровадження інтерактивних запитів
- Проведення дослідницького аналізу даних
Модуль 9: Аналіз даних за допомогою Hive і Phoenix
Цей модуль описує як аналізувати дані за допомогою Hive і Phoenix.
Теми
- Впровадження інтерактивних запитів для великих даних за допомогою Hive.
- Проведення дослідницького аналізу даних за допомогою Hive
- Виконання інтерактивної обробки даних за допомогою Apache Phoenix
Лабораторна робота: Аналіз даних за допомогою Hive і Phoenix
- Впровадження інтерактивних запитів для великих даних за допомогою Hive.
- Проведення дослідницького аналізу даних за допомогою Hive
- Виконання інтерактивної обробки даних за допомогою Apache Phoenix
Модуль 10: Потокова аналітика
Цей модуль описує потокову аналітику в Azure.
Теми
- Потокова аналітика
- Обробка потокових даних з потокової аналітики
- Управління завданнями потокової аналітики
Лабораторна робота: Впровадження потокової аналітики
- Обробка потокових даних з потокової аналітики
- Управління завданнями потокової аналітики
Модуль 11: Spark Streaming і DStream API
Цей модуль знайомить з DStream API і описує, як в Spark створити додатки для обробки структурованих потоків.
Теми
- DStream
- Створення додатків для обробки структурованих потоків в Spark
- Стабільність і візуалізація
Лабораторна робота: Використання DStream API для створення додатків Spark Streaming
- Створення програми Spark Streaming за допомогою DStream API
- Створення програми для обробки структурованих потоків в Spark
Модуль 12: Розробка рішень обробки великих даних в режимі реального часу за допомогою Apache Storm
У цьому модулі розказано як обробляти великі дані в режимі реального часу за допомогою Apache Storm.
Теми
- Дані, які довго зберігаються
- Потокові дані в Storm
- Створення топології Storm
- Налаштування Apache Storm
Лабораторна робота: Розробка рішень обробки великих даних в режимі реального часу за допомогою Apache Storm
- Потокові дані в Storm
- Створення топології Storm
Модуль 13: Аналіз даних за допомогою Spark SQL
Цей модуль пояснює, як аналізувати дані за допомогою Spark SQL.
Теми
- Впровадження інтерактивних запитів
- Проведення дослідницького аналізу даних
Лабораторна робота: Аналіз даних за допомогою Spark SQL
- Впровадження інтерактивних запитів
- Проведення дослідницького аналізу даних
Для ефективного навчання на курсі слухачі повинні володіти такими знаннями і навичками:
- Досвід програмування на R і знання поширених пакетів R
- Знання загальних статистичних методів аналізу даних і кращих практик.
- Основні відомості про операційні сисТеми Microsoft Windows.
- Досвід роботи з реляційними базами даних.
Запис на курс
Код курсу | WBD-2 |
---|---|
Тривалість | 5 д (40 ч) |
Код екзамену | |
Вартість без ПДВ | 35 000 грн. |