Аналіз Великих Даних за допомогою Microsoft R

Мета курсу - надати слухачам знання та навички, необхідні для створення і запуску сценаріїв аналізу великих даних на сервері Microsoft R. Також в курсі описано як працювати з Microsoft R в середовищах обробки великих даних як Hadoop, кластер Spark або база SQL Server   Аудиторія Цей курс призначений для фахівців, які аналізують величезні набори даних, а також розробників, які використовують R в своїх проектах.   Після закінчення курсу слухачі зможуть:
  • Описати роботу Microsoft R
  • Використовувати клієнта R і Server R для обробки великих даних з різних сховищ
  • Візуалізувати дані за допомогою графіків і схем
  • Перетворювати і зачищати набори великих даних
  • Використовувати способи поділу аналітичних задач на паралельні завдання
  • Побудувати і оцінити регресивні моделі, які генеруються на основі великих даних
  • Створити, оцінити і розгортати партиціоніруваних моделей на основі великих даних
  • Використовувати мову R в середовищах SQL Server і Hadoop
Сертифікаційні іспити Сертифікаційні іспити не передбачені.
Модуль 1: Сервер і клієнт Microsoft R Цей модуль розповідає як працюють сервер і клієнт Microsoft R. Теми
  • Огляд сервера Microsoft R
  • Використання клієнта Microsoft R
  • Функції ScaleR
  Лабораторна робота: Огляд сервера і клієнта Microsoft R
  • Використання клієнта R в VSTR і RStudio
  • Огляд функцій ScaleR
  • Підключення до віддаленого сервера
  Модуль 2: Огляд великих даних Цей модуль описує як надавати доступ клієнтам до великих даними з різних сховищ за допомогою сервера Microsoft R. Теми
  • Джерела даних ScaleR
  • Читання даних в XDF-об'єкті
  • Узагальнення даних в XDF-об'єкті
  Лабораторна робота: Огляд великих даних
  • Читання локального CSV-файлу і передача даних в XDF-файл
  • Перетворення даних на вході
  • Читання даних з SQL Server і передача в XDF-файл
  • Підведення підсумків в XDF-файлі
  Модуль 3: Візуалізація великих даних Цей модуль описує як візуалізувати великі дані, використовуючи діаграми і графіки. Теми
  • Візуалізація даних в пам'яті
  • Візуалізації великих даних
  Лабораторна робота: Візуалізація даних
  • Використання ggplot для створення багатогранної діаграми з накладенням
  • Використання rxlinePlot і rxHistogram
  Модуль 4: Обробка великих даних Цей модуль описує, як перетворювати і вичищати набори великих даних. Теми
  • Перетворення великих даних
  • Управління наборами даних
  Лабораторна робота: Обробка великих даних
  • Перетворення великих даних
  • Сортування і злиття великих даних
  • Підключення до віддаленого серверу
  Модуль 5: Розпаралелювання операцій аналізу Цей модуль описує, як розбивати задачу аналізу набору даних на паралельно виконувані підзадачі. Теми
  • Використання обчислювального контексту RxLocalParallel з функцією rxExec
  • Використання пакету revoPemaR
  Лабораторна робота: Використання rxExec і revoPemaR для розпаралелювання операцій
  • Використання rxExec для оптимізації використання ресурсів
  • Створення і застосування класу PEMA
  Модуль 6: Створення та оцінка регресійній моделі Цей модуль пояснює як створювати й оцінювати регресивні моделі на базі великих даних. Теми
  • Кластеризації великих даних
  • Створення регресійних моделей і підготовка прогнозів
  Лабораторна робота: Створення лінійної регресійної моделі
  • Створення кластера
  • Створення регресійної моделі
  • Генерація даних для складання прогнозів
  • Використання моделі для складання прогнозів і порівняння результатів
  Модуль 7: Створення та оцінка партиціоніруваних моделей (Partitioning Model) У цьому модулі описується, як створювати і обраховувати партіціонірованние моделі. Теми
  • Створення партиціоніруваних моделей на основі дерева рішень.
  • Тестування прогнозів партиціоніруваних моделей
  Лабораторна робота: Створення та оцінка партиціоніруваних моделей
  • Розбиття набору даних
  • Побудова моделей
  • Підготовка прогнозу і тестування результатів
  • Порівняння результатів
  Модуль 8: Обробка великих даних в SQL Server і Hadoop Цей модуль описує як перетворювати і зачищати набори великих даних в SQL Server і Hadoop Теми
  • Використання R в SQL Server
  • Використання Map / Reduce в Hadoop
  • Використання Hadoop Spark
  Лабораторна робота: Обробка великих даних в SQL Server і Hadoop
  • Створення моделі і прогнозування результатів в SQL Server
  • Аналіз і висновок результату за допомогою Map / Reduce в Hadoop
  • Інтеграція скрипту sparklyr в робочий процес ScaleR
Для ефективного навчання на курсі слухачі повинні володіти такими знаннями і навичками:
  • Досвід програмування на R і знайомство з основними пакетами
  • Знання загальних статистичних методів і рекомендованих методів аналізу даних
  • Базові знання операційної системи Windows і її основних можливостей

Запис на курс

Код курсу20773
Тривалість3д (24ч)
Код екзамену
Вартість без ПДВ9 000 грн.
Найближчі дати
  • 26.03.2018
  • 07.05.2018
  • 18.06.2018