spinner-it

Аналіз великих даних за допомогою Microsoft R

Мета курсу - надати слухачам знання та навички, необхідні для створення і запуску сценаріїв аналізу великих даних на сервері Microsoft R. Також в курсі описано як працювати з Microsoft R в середовищах обробки великих даних як Hadoop, кластер Spark або база SQL Server

 

Аудиторія

Цей курс призначений для фахівців, які аналізують величезні набори даних, а також розробників, які використовують R в своїх проектах.

 

Після закінчення курсу слухачі зможуть:

  • Описати роботу Microsoft R
  • Використовувати клієнта R і Server R для обробки великих даних з різних сховищ
  • Візуалізувати дані за допомогою графіків і схем
  • Перетворювати і зачищати набори великих даних
  • Використовувати способи поділу аналітичних задач на паралельні завдання
  • Побудувати і оцінити регресивні моделі, які генеруються на основі великих даних
  • Створити, оцінити і розгортати партиціоніруваних моделей на основі великих даних
  • Використовувати мову R в середовищах SQL Server і Hadoop

Сертифікаційні іспити

Сертифікаційні іспити не передбачені.

Модуль 1: Сервер і клієнт Microsoft R

Цей модуль розповідає як працюють сервер і клієнт Microsoft R.

Теми

  • Огляд сервера Microsoft R
  • Використання клієнта Microsoft R
  • Функції ScaleR

 

Лабораторна робота: Огляд сервера і клієнта Microsoft R

  • Використання клієнта R в VSTR і RStudio
  • Огляд функцій ScaleR
  • Підключення до віддаленого сервера

 

Модуль 2: Огляд великих даних

Цей модуль описує як надавати доступ клієнтам до великих даними з різних сховищ за допомогою сервера Microsoft R.

Теми

  • Джерела даних ScaleR
  • Читання даних в XDF-об'єкті
  • Узагальнення даних в XDF-об'єкті

 

Лабораторна робота: Огляд великих даних

  • Читання локального CSV-файлу і передача даних в XDF-файл
  • Перетворення даних на вході
  • Читання даних з SQL Server і передача в XDF-файл
  • Підведення підсумків в XDF-файлі

 

Модуль 3: Візуалізація великих даних

Цей модуль описує як візуалізувати великі дані, використовуючи діаграми і графіки.

Теми

  • Візуалізація даних в пам'яті
  • Візуалізації великих даних

 

Лабораторна робота: Візуалізація даних

  • Використання ggplot для створення багатогранної діаграми з накладенням
  • Використання rxlinePlot і rxHistogram

 

Модуль 4: Обробка великих даних

Цей модуль описує, як перетворювати і вичищати набори великих даних.

Теми

  • Перетворення великих даних
  • Управління наборами даних

 

Лабораторна робота: Обробка великих даних

  • Перетворення великих даних
  • Сортування і злиття великих даних
  • Підключення до віддаленого серверу

 

Модуль 5: Розпаралелювання операцій аналізу

Цей модуль описує, як розбивати задачу аналізу набору даних на паралельно виконувані підзадачі.

Теми

  • Використання обчислювального контексту RxLocalParallel з функцією rxExec
  • Використання пакету revoPemaR

 

Лабораторна робота: Використання rxExec і revoPemaR для розпаралелювання операцій

  • Використання rxExec для оптимізації використання ресурсів
  • Створення і застосування класу PEMA

 

Модуль 6: Створення та оцінка регресійній моделі

Цей модуль пояснює як створювати й оцінювати регресивні моделі на базі великих даних.

Теми

  • Кластеризації великих даних
  • Створення регресійних моделей і підготовка прогнозів

 

Лабораторна робота: Створення лінійної регресійної моделі

  • Створення кластера
  • Створення регресійної моделі
  • Генерація даних для складання прогнозів
  • Використання моделі для складання прогнозів і порівняння результатів

 

Модуль 7: Створення та оцінка партиціоніруваних моделей (Partitioning Model)

У цьому модулі описується, як створювати і обраховувати партіціонірованние моделі.

Теми

  • Створення партиціоніруваних моделей на основі дерева рішень.
  • Тестування прогнозів партиціоніруваних моделей

 

Лабораторна робота: Створення та оцінка партиціоніруваних моделей

  • Розбиття набору даних
  • Побудова моделей
  • Підготовка прогнозу і тестування результатів
  • Порівняння результатів

 

Модуль 8: Обробка великих даних в SQL Server і Hadoop

Цей модуль описує як перетворювати і зачищати набори великих даних в SQL Server і Hadoop

Теми

  • Використання R в SQL Server
  • Використання Map / Reduce в Hadoop
  • Використання Hadoop Spark

 

Лабораторна робота: Обробка великих даних в SQL Server і Hadoop

  • Створення моделі і прогнозування результатів в SQL Server
  • Аналіз і висновок результату за допомогою Map / Reduce в Hadoop
  • Інтеграція скрипту sparklyr в робочий процес ScaleR

Для ефективного навчання на курсі слухачі повинні володіти такими знаннями і навичками:

  • Досвід програмування на R і знайомство з основними пакетами
  • Знання загальних статистичних методів і рекомендованих методів аналізу даних
  • Базові знання операційної системи Windows і її основних можливостей

Запис на курс

Код курсуWBD-4
Тривалість3 д (24 ч)
Код екзамену
Вартість без ПДВ14 100 грн.