Обробка даних с Microsoft HDInsight

Мета курсу - надати слухачам знання та навички, необхідні для роботи з масивами великих даних, планування та впровадження робочих потоків за допомогою HDInsight. Аудиторія Цей курс призначений для інженерів, архітекторів, фахівців з підготовки даних, а також розробників бажаючих використовувати HDInsight і мову R в своїх проектах.   Після закінчення курсу слухачі зможуть:
  • Описати Hadoop, MapReduce, HDInsight
  • Описати типи кластерів HDInsight
  • Описати створення, управління і видалення кластерів HDInsight за допомогою PowerShell.
  • Описати як вирішувати доступ користувачів до об'єктів.
    • Описати конфігурації і архітектуру сховища HDInsight.
  • Проводити моніторинг ресурсів з Operations management suite.
  • Виконувати запити з Hive і Pig
  • Описати використання ETL і Spark
  • Впровадити інтерактивні запити
  • Виконати інтерактивну обробку даних за допомогою Apache Phoenix
  • Керувати завданнями потокової аналітики
  • Створити додатки для обробки структурованих потоків в Spark.
  • Використовувати потокові дані в Storm
  • Пояснити, як працює мова R
  • Перетворювати і зачищати набори даних
Модуль 1: Початок роботи з HDInsight Цей модуль описує можливості Hadoop, парадигми MapReduce і основи роботи з HDInsight. Теми
  • Великі дані
  • Hadoop
  • MapReduce
  • HDInsight
  Лабораторна робота: Запити до великих даними
  • Запити до даних з Hive
  • Запити до даних з Excel
  Модуль 2: Розгортання кластерів HDInsight Цей модуль описує процедуру розгортання кластерів HDInsight. Теми
  • Типи кластерів HDInsight
  • Управління кластерами HDInsight
  • Управління кластерами HDInsight за допомогою PowerShell
  Лабораторна робота: Управління кластерами HDInsight в Azure
  • Створити кластер Hadoop в HDInsight
  • Налаштувати HDInsight за допомогою скрипта
  • Налаштувати HDInsight за допомогою Bootstrap
  • Видалити кластер HDInsight
  Модуль 3: Авторизація користувачів для доступу до ресурсів Цей модуль описує як призначати права і видавати дозволи для користувачів в Azure. Теми
  • Недоменні кластери
  • Налаштування кластера HDInsight, підключеного до домену
  • Управління підключеним до домену кластером HDInsight
  Лабораторна робота: Авторизація користувачів для доступу до ресурсів
  • Налаштування кластера HDInsight, підключеного до домену
  • Налаштувати політики Hive
  Модуль 4: Завантаження даних в HDInsight Цей модуль описує способи завантаження даних в HDInsigh. Теми
  • Сховище HDInsigh
  • Засоби завантаження даних
  • Продуктивність і надійність
Лабораторна робота: Завантаження даних в HDInsight
  • Завантаження даних за допомогою Sqoop
  • За допомогою завантаження даних в AZcopy
  • Завантаження даних за допомогою ADLcopy
  • Використовувати HDInsight для стиснення даних
  Модуль 5: Пошук і усунення неполадок в HDInsight Цей модуль описані способи усунення неполадок в HDInsight. Теми
  • Аналіз журналів
  • Журнали YARN
  • Дампи купи (Heap)
  • Operations management suite
  Лабораторна робота: Пошук і усунення неполадок в HDInsight
  • Аналіз журналів HDInsight
  • Аналіз журналів YARN
  • Моніторинг ресурсів з Operations management suite
  Модуль 6: Впровадження пакетних рішень Цей модуль пояснює як реалізувати пакетні рішення. Теми
  • Сховище Apache Hive
  • Запити з Hive і Pig
  • Підключення HDInsight
  Лабораторна робота: Створення резервних копій баз даних SQL Server
  • Завантаження даних в таблицю Hive
  • Запит даних в Hive і Pig
Модуль 7: Проектування пакетних рішень ETL для великих даних за допомогою Spark У цьому модулі описується як проектувати пакетні рішення ETL для великих даних за допомогою Spark. Теми
  • Що таке Spark?
  • ETL і Spark
  • Продуктивність Spark
  Лабораторна робота: Проектування пакетних рішень ETL для великих даних за допомогою Spark
  • Створення кластера HDInsight з доступом до сховища Data Lake
  • Використання кластера Spark в HDInsight для аналізу даних в сховищі Data Lake
  • Аналіз журналів сайту за допомогою налаштованої бібліотеки кластера Apache Spark в HDInsight
  • Управління ресурсами кластера Apache Spark в Azure HDInsight
  Модуль 8: Аналіз даних зі Spark SQL Цей модуль описує, як аналізувати дані зі Spark SQL. Теми
  • Впровадження інтерактивних запитів
  • Проведення дослідницького аналізу даних
  Лабораторна робота: Аналіз даних зі Spark SQL
  • Впровадження інтерактивних запитів
  • Проведення дослідницького аналізу даних
  Модуль 9: Аналіз даних за допомогою Hive і Phoenix Цей модуль описує як аналізувати дані за допомогою Hive і Phoenix. Теми
  • Впровадження інтерактивних запитів для великих даних за допомогою Hive.
  • Проведення дослідницького аналізу даних за допомогою Hive
  • Виконання інтерактивної обробки даних за допомогою Apache Phoenix
  Лабораторна робота: Аналіз даних за допомогою Hive і Phoenix
  • Впровадження інтерактивних запитів для великих даних за допомогою Hive.
  • Проведення дослідницького аналізу даних за допомогою Hive
  • Виконання інтерактивної обробки даних за допомогою Apache Phoenix
  Модуль 10: Потокова аналітика Цей модуль описує потокову аналітику в Azure. Теми
  • Потокова аналітика
  • Обробка потокових даних з потокової аналітики
  • Управління завданнями потокової аналітики
  Лабораторна робота: Впровадження потокової аналітики
  • Обробка потокових даних з потокової аналітики
  • Управління завданнями потокової аналітики
  Модуль 11: Spark Streaming і DStream API Цей модуль знайомить з DStream API і описує, як в Spark створити додатки для обробки структурованих потоків. Теми
  • DStream
  • Створення додатків для обробки структурованих потоків в Spark
  • Стабільність і візуалізація
Лабораторна робота: Використання DStream API для створення додатків Spark Streaming
  • Створення програми Spark Streaming за допомогою DStream API
  • Створення програми для обробки структурованих потоків в Spark
  Модуль 12: Розробка рішень обробки великих даних в режимі реального часу за допомогою Apache Storm У цьому модулі розказано як обробляти великі дані в режимі реального часу за допомогою Apache Storm. Теми
  • Дані, які довго зберігаються
  • Потокові дані в Storm
  • Створення топології Storm
  • Налаштування Apache Storm
  Лабораторна робота: Розробка рішень обробки великих даних в режимі реального часу за допомогою Apache Storm
  • Потокові дані в Storm
  • Створення топології Storm
  Модуль 13: Аналіз даних за допомогою Spark SQL Цей модуль пояснює, як аналізувати дані за допомогою Spark SQL. Теми
  • Впровадження інтерактивних запитів
  • Проведення дослідницького аналізу даних
  Лабораторна робота: Аналіз даних за допомогою Spark SQL
  • Впровадження інтерактивних запитів
  • Проведення дослідницького аналізу даних
Для ефективного навчання на курсі слухачі повинні володіти такими знаннями і навичками:
  • Досвід програмування на R і знання поширених пакетів R
  • Знання загальних статистичних методів аналізу даних і кращих практик.
  • Основні відомості про операційні сисТеми Microsoft Windows.
  • Досвід роботи з реляційними базами даних.

Запис на курс

Код курсу20775
Тривалість5д (40ч)
Код екзамену
Вартість без ПДВ15 000 грн.
Найближчі дати
  • 15.01.2018
  • 26.02.2018
  • 09.04.2018