spinner-it

Обробка даних с Microsoft HDInsight

Мета курсу - надати слухачам знання та навички, необхідні для роботи з масивами великих даних, планування та впровадження робочих потоків за допомогою HDInsight.АудиторіяЦей курс призначений для інженерів, архітекторів, фахівців з підготовки даних, а також розробників бажаючих використовувати HDInsight і мову R в своїх проектах. Після закінчення курсу слухачі зможуть:
  • Описати Hadoop, MapReduce, HDInsight
  • Описати типи кластерів HDInsight
  • Описати створення, управління і видалення кластерів HDInsight за допомогою PowerShell.
  • Описати як вирішувати доступ користувачів до об'єктів.
    • Описати конфігурації і архітектуру сховища HDInsight.
  • Проводити моніторинг ресурсів з Operations management suite.
  • Виконувати запити з Hive і Pig
  • Описати використання ETL і Spark
  • Впровадити інтерактивні запити
  • Виконати інтерактивну обробку даних за допомогою Apache Phoenix
  • Керувати завданнями потокової аналітики
  • Створити додатки для обробки структурованих потоків в Spark.
  • Використовувати потокові дані в Storm
  • Пояснити, як працює мова R
  • Перетворювати і зачищати набори даних
Модуль 1: Початок роботи з HDInsightЦей модуль описує можливості Hadoop, парадигми MapReduce і основи роботи з HDInsight.Теми
  • Великі дані
  • Hadoop
  • MapReduce
  • HDInsight
 Лабораторна робота: Запити до великих даними
  • Запити до даних з Hive
  • Запити до даних з Excel
 Модуль 2: Розгортання кластерів HDInsightЦей модуль описує процедуру розгортання кластерів HDInsight.Теми
  • Типи кластерів HDInsight
  • Управління кластерами HDInsight
  • Управління кластерами HDInsight за допомогою PowerShell
 Лабораторна робота: Управління кластерами HDInsight в Azure
  • Створити кластер Hadoop в HDInsight
  • Налаштувати HDInsight за допомогою скрипта
  • Налаштувати HDInsight за допомогою Bootstrap
  • Видалити кластер HDInsight
 Модуль 3: Авторизація користувачів для доступу до ресурсівЦей модуль описує як призначати права і видавати дозволи для користувачів в Azure.Теми
  • Недоменні кластери
  • Налаштування кластера HDInsight, підключеного до домену
  • Управління підключеним до домену кластером HDInsight
 Лабораторна робота: Авторизація користувачів для доступу до ресурсів
  • Налаштування кластера HDInsight, підключеного до домену
  • Налаштувати політики Hive
 Модуль 4: Завантаження даних в HDInsightЦей модуль описує способи завантаження даних в HDInsigh.Теми
  • Сховище HDInsigh
  • Засоби завантаження даних
  • Продуктивність і надійність
Лабораторна робота: Завантаження даних в HDInsight
  • Завантаження даних за допомогою Sqoop
  • За допомогою завантаження даних в AZcopy
  • Завантаження даних за допомогою ADLcopy
  • Використовувати HDInsight для стиснення даних
 Модуль 5: Пошук і усунення неполадок в HDInsightЦей модуль описані способи усунення неполадок в HDInsight.Теми
  • Аналіз журналів
  • Журнали YARN
  • Дампи купи (Heap)
  • Operations management suite
 Лабораторна робота: Пошук і усунення неполадок в HDInsight
  • Аналіз журналів HDInsight
  • Аналіз журналів YARN
  • Моніторинг ресурсів з Operations management suite
 Модуль 6: Впровадження пакетних рішеньЦей модуль пояснює як реалізувати пакетні рішення.Теми
  • Сховище Apache Hive
  • Запити з Hive і Pig
  • Підключення HDInsight
 Лабораторна робота: Створення резервних копій баз даних SQL Server
  • Завантаження даних в таблицю Hive
  • Запит даних в Hive і Pig
Модуль 7: Проектування пакетних рішень ETL для великих даних за допомогою SparkУ цьому модулі описується як проектувати пакетні рішення ETL для великих даних за допомогою Spark.Теми
  • Що таке Spark?
  • ETL і Spark
  • Продуктивність Spark
 Лабораторна робота: Проектування пакетних рішень ETL для великих даних за допомогою Spark
  • Створення кластера HDInsight з доступом до сховища Data Lake
  • Використання кластера Spark в HDInsight для аналізу даних в сховищі Data Lake
  • Аналіз журналів сайту за допомогою налаштованої бібліотеки кластера Apache Spark в HDInsight
  • Управління ресурсами кластера Apache Spark в Azure HDInsight
 Модуль 8: Аналіз даних зі Spark SQLЦей модуль описує, як аналізувати дані зі Spark SQL.Теми
  • Впровадження інтерактивних запитів
  • Проведення дослідницького аналізу даних
 Лабораторна робота: Аналіз даних зі Spark SQL
  • Впровадження інтерактивних запитів
  • Проведення дослідницького аналізу даних
 Модуль 9: Аналіз даних за допомогою Hive і PhoenixЦей модуль описує як аналізувати дані за допомогою Hive і Phoenix.Теми
  • Впровадження інтерактивних запитів для великих даних за допомогою Hive.
  • Проведення дослідницького аналізу даних за допомогою Hive
  • Виконання інтерактивної обробки даних за допомогою Apache Phoenix
 Лабораторна робота: Аналіз даних за допомогою Hive і Phoenix
  • Впровадження інтерактивних запитів для великих даних за допомогою Hive.
  • Проведення дослідницького аналізу даних за допомогою Hive
  • Виконання інтерактивної обробки даних за допомогою Apache Phoenix
 Модуль 10: Потокова аналітикаЦей модуль описує потокову аналітику в Azure.Теми
  • Потокова аналітика
  • Обробка потокових даних з потокової аналітики
  • Управління завданнями потокової аналітики
 Лабораторна робота: Впровадження потокової аналітики
  • Обробка потокових даних з потокової аналітики
  • Управління завданнями потокової аналітики
 Модуль 11: Spark Streaming і DStream APIЦей модуль знайомить з DStream API і описує, як в Spark створити додатки для обробки структурованих потоків.Теми
  • DStream
  • Створення додатків для обробки структурованих потоків в Spark
  • Стабільність і візуалізація
Лабораторна робота: Використання DStream API для створення додатків Spark Streaming
  • Створення програми Spark Streaming за допомогою DStream API
  • Створення програми для обробки структурованих потоків в Spark
 Модуль 12: Розробка рішень обробки великих даних в режимі реального часу за допомогою Apache StormУ цьому модулі розказано як обробляти великі дані в режимі реального часу за допомогою Apache Storm.Теми
  • Дані, які довго зберігаються
  • Потокові дані в Storm
  • Створення топології Storm
  • Налаштування Apache Storm
 Лабораторна робота: Розробка рішень обробки великих даних в режимі реального часу за допомогою Apache Storm
  • Потокові дані в Storm
  • Створення топології Storm
 Модуль 13: Аналіз даних за допомогою Spark SQLЦей модуль пояснює, як аналізувати дані за допомогою Spark SQL.Теми
  • Впровадження інтерактивних запитів
  • Проведення дослідницького аналізу даних
 Лабораторна робота: Аналіз даних за допомогою Spark SQL
  • Впровадження інтерактивних запитів
  • Проведення дослідницького аналізу даних
Для ефективного навчання на курсі слухачі повинні володіти такими знаннями і навичками:
  • Досвід програмування на R і знання поширених пакетів R
  • Знання загальних статистичних методів аналізу даних і кращих практик.
  • Основні відомості про операційні сисТеми Microsoft Windows.
  • Досвід роботи з реляційними базами даних.

Запис на курс

Код курсу20775
Тривалість5д (40ч)
Код екзамену
Вартість без ПДВ23 500 грн.
Найближчі дати
  • 15.06.2020