spinner-it

Обробка даних с Microsoft HDInsight

Мета курсу - надати слухачам знання та навички, необхідні для роботи з масивами великих даних, планування та впровадження робочих потоків за допомогою HDInsight.

Аудиторія

Цей курс призначений для інженерів, архітекторів, фахівців з підготовки даних, а також розробників бажаючих використовувати HDInsight і мову R в своїх проектах.

 

Після закінчення курсу слухачі зможуть:

  • Описати Hadoop, MapReduce, HDInsight
  • Описати типи кластерів HDInsight
  • Описати створення, управління і видалення кластерів HDInsight за допомогою PowerShell.
  • Описати як вирішувати доступ користувачів до об'єктів.
    • Описати конфігурації і архітектуру сховища HDInsight.
  • Проводити моніторинг ресурсів з Operations management suite.
  • Виконувати запити з Hive і Pig
  • Описати використання ETL і Spark
  • Впровадити інтерактивні запити
  • Виконати інтерактивну обробку даних за допомогою Apache Phoenix
  • Керувати завданнями потокової аналітики
  • Створити додатки для обробки структурованих потоків в Spark.
  • Використовувати потокові дані в Storm
  • Пояснити, як працює мова R
  • Перетворювати і зачищати набори даних

Модуль 1: Початок роботи з HDInsight

Цей модуль описує можливості Hadoop, парадигми MapReduce і основи роботи з HDInsight.

Теми

  • Великі дані
  • Hadoop
  • MapReduce
  • HDInsight

 

Лабораторна робота: Запити до великих даними

  • Запити до даних з Hive
  • Запити до даних з Excel

 

Модуль 2: Розгортання кластерів HDInsight

Цей модуль описує процедуру розгортання кластерів HDInsight.

Теми

  • Типи кластерів HDInsight
  • Управління кластерами HDInsight
  • Управління кластерами HDInsight за допомогою PowerShell

 

Лабораторна робота: Управління кластерами HDInsight в Azure

  • Створити кластер Hadoop в HDInsight
  • Налаштувати HDInsight за допомогою скрипта
  • Налаштувати HDInsight за допомогою Bootstrap
  • Видалити кластер HDInsight

 

Модуль 3: Авторизація користувачів для доступу до ресурсів

Цей модуль описує як призначати права і видавати дозволи для користувачів в Azure.

Теми

  • Недоменні кластери
  • Налаштування кластера HDInsight, підключеного до домену
  • Управління підключеним до домену кластером HDInsight

 

Лабораторна робота: Авторизація користувачів для доступу до ресурсів

  • Налаштування кластера HDInsight, підключеного до домену
  • Налаштувати політики Hive

 

Модуль 4: Завантаження даних в HDInsight

Цей модуль описує способи завантаження даних в HDInsigh.

Теми

  • Сховище HDInsigh
  • Засоби завантаження даних
  • Продуктивність і надійність

Лабораторна робота: Завантаження даних в HDInsight

  • Завантаження даних за допомогою Sqoop
  • За допомогою завантаження даних в AZcopy
  • Завантаження даних за допомогою ADLcopy
  • Використовувати HDInsight для стиснення даних

 

Модуль 5: Пошук і усунення неполадок в HDInsight

Цей модуль описані способи усунення неполадок в HDInsight.

Теми

  • Аналіз журналів
  • Журнали YARN
  • Дампи купи (Heap)
  • Operations management suite

 

Лабораторна робота: Пошук і усунення неполадок в HDInsight

  • Аналіз журналів HDInsight
  • Аналіз журналів YARN
  • Моніторинг ресурсів з Operations management suite

 

Модуль 6: Впровадження пакетних рішень

Цей модуль пояснює як реалізувати пакетні рішення.

Теми

  • Сховище Apache Hive
  • Запити з Hive і Pig
  • Підключення HDInsight

 

Лабораторна робота: Створення резервних копій баз даних SQL Server

  • Завантаження даних в таблицю Hive
  • Запит даних в Hive і Pig

Модуль 7: Проектування пакетних рішень ETL для великих даних за допомогою Spark

У цьому модулі описується як проектувати пакетні рішення ETL для великих даних за допомогою Spark.

Теми

  • Що таке Spark?
  • ETL і Spark
  • Продуктивність Spark

 

Лабораторна робота: Проектування пакетних рішень ETL для великих даних за допомогою Spark

  • Створення кластера HDInsight з доступом до сховища Data Lake
  • Використання кластера Spark в HDInsight для аналізу даних в сховищі Data Lake
  • Аналіз журналів сайту за допомогою налаштованої бібліотеки кластера Apache Spark в HDInsight
  • Управління ресурсами кластера Apache Spark в Azure HDInsight

 

Модуль 8: Аналіз даних зі Spark SQL

Цей модуль описує, як аналізувати дані зі Spark SQL.

Теми

  • Впровадження інтерактивних запитів
  • Проведення дослідницького аналізу даних

 

Лабораторна робота: Аналіз даних зі Spark SQL

  • Впровадження інтерактивних запитів
  • Проведення дослідницького аналізу даних

 

Модуль 9: Аналіз даних за допомогою Hive і Phoenix

Цей модуль описує як аналізувати дані за допомогою Hive і Phoenix.

Теми

  • Впровадження інтерактивних запитів для великих даних за допомогою Hive.
  • Проведення дослідницького аналізу даних за допомогою Hive
  • Виконання інтерактивної обробки даних за допомогою Apache Phoenix

 

Лабораторна робота: Аналіз даних за допомогою Hive і Phoenix

  • Впровадження інтерактивних запитів для великих даних за допомогою Hive.
  • Проведення дослідницького аналізу даних за допомогою Hive
  • Виконання інтерактивної обробки даних за допомогою Apache Phoenix

 

Модуль 10: Потокова аналітика

Цей модуль описує потокову аналітику в Azure.

Теми

  • Потокова аналітика
  • Обробка потокових даних з потокової аналітики
  • Управління завданнями потокової аналітики

 

Лабораторна робота: Впровадження потокової аналітики

  • Обробка потокових даних з потокової аналітики
  • Управління завданнями потокової аналітики

 

Модуль 11: Spark Streaming і DStream API

Цей модуль знайомить з DStream API і описує, як в Spark створити додатки для обробки структурованих потоків.

Теми

  • DStream
  • Створення додатків для обробки структурованих потоків в Spark
  • Стабільність і візуалізація

Лабораторна робота: Використання DStream API для створення додатків Spark Streaming

  • Створення програми Spark Streaming за допомогою DStream API
  • Створення програми для обробки структурованих потоків в Spark

 

Модуль 12: Розробка рішень обробки великих даних в режимі реального часу за допомогою Apache Storm

У цьому модулі розказано як обробляти великі дані в режимі реального часу за допомогою Apache Storm.

Теми

  • Дані, які довго зберігаються
  • Потокові дані в Storm
  • Створення топології Storm
  • Налаштування Apache Storm

 

Лабораторна робота: Розробка рішень обробки великих даних в режимі реального часу за допомогою Apache Storm

  • Потокові дані в Storm
  • Створення топології Storm

 

Модуль 13: Аналіз даних за допомогою Spark SQL

Цей модуль пояснює, як аналізувати дані за допомогою Spark SQL.

Теми

  • Впровадження інтерактивних запитів
  • Проведення дослідницького аналізу даних

 

Лабораторна робота: Аналіз даних за допомогою Spark SQL

  • Впровадження інтерактивних запитів
  • Проведення дослідницького аналізу даних

Для ефективного навчання на курсі слухачі повинні володіти такими знаннями і навичками:

  • Досвід програмування на R і знання поширених пакетів R
  • Знання загальних статистичних методів аналізу даних і кращих практик.
  • Основні відомості про операційні сисТеми Microsoft Windows.
  • Досвід роботи з реляційними базами даних.

Запис на курс

Код курсуWBD-2
Тривалість5 д (40 ч)
Код екзамену
Вартість без ПДВ25 000 грн.

У зв'язку з карантином всі наші курси читаються у online-форматі.