Аналіз великих даних за допомогою Microsoft R

Мета курсу - надати слухачам знання та навички, необхідні для створення і запуску сценаріїв аналізу великих даних на сервері Microsoft R. Також в курсі описано як працювати з Microsoft R в середовищах обробки великих даних як Hadoop, кластер Spark або база SQL Server

Аудиторія

Цей курс призначений для фахівців, які аналізують величезні набори даних, а також розробників, які використовують R в своїх проектах.

Після закінчення курсу слухачі зможуть:

Описати роботу Microsoft R
Використовувати клієнта R і Server R для обробки великих даних з різних сховищ
Візуалізувати дані за допомогою графіків і схем
Перетворювати і зачищати набори великих даних
Використовувати способи поділу аналітичних задач на паралельні завдання
Побудувати і оцінити регресивні моделі, які генеруються на основі великих даних
Створити, оцінити і розгортати партиціоніруваних моделей на основі великих даних
Використовувати мову R в середовищах SQL Server і Hadoop

Сертифікаційні іспити

Сертифікаційні іспити не передбачені.

Модуль 1: Сервер і клієнт Microsoft R

Цей модуль розповідає як працюють сервер і клієнт Microsoft R.

Теми

Огляд сервера Microsoft R
Використання клієнта Microsoft R
Функції ScaleR

Лабораторна робота: Огляд сервера і клієнта Microsoft R

Використання клієнта R в VSTR і RStudio
Огляд функцій ScaleR
Підключення до віддаленого сервера

Модуль 2: Огляд великих даних

Цей модуль описує як надавати доступ клієнтам до великих даними з різних сховищ за допомогою сервера Microsoft R.

Теми

Джерела даних ScaleR
Читання даних в XDF-об'єкті
Узагальнення даних в XDF-об'єкті

Лабораторна робота: Огляд великих даних

Читання локального CSV-файлу і передача даних в XDF-файл
Перетворення даних на вході
Читання даних з SQL Server і передача в XDF-файл
Підведення підсумків в XDF-файлі

Модуль 3: Візуалізація великих даних

Цей модуль описує як візуалізувати великі дані, використовуючи діаграми і графіки.

Теми

Візуалізація даних в пам'яті
Візуалізації великих даних

Лабораторна робота: Візуалізація даних

Використання ggplot для створення багатогранної діаграми з накладенням
Використання rxlinePlot і rxHistogram

Модуль 4: Обробка великих даних

Цей модуль описує, як перетворювати і вичищати набори великих даних.

Теми

Перетворення великих даних
Управління наборами даних

Лабораторна робота: Обробка великих даних

Перетворення великих даних
Сортування і злиття великих даних
Підключення до віддаленого серверу

Модуль 5: Розпаралелювання операцій аналізу

Цей модуль описує, як розбивати задачу аналізу набору даних на паралельно виконувані підзадачі.

Теми

Використання обчислювального контексту RxLocalParallel з функцією rxExec
Використання пакету revoPemaR

Лабораторна робота: Використання rxExec і revoPemaR для розпаралелювання операцій

Використання rxExec для оптимізації використання ресурсів
Створення і застосування класу PEMA

Модуль 6: Створення та оцінка регресійній моделі

Цей модуль пояснює як створювати й оцінювати регресивні моделі на базі великих даних.

Теми

Кластеризації великих даних
Створення регресійних моделей і підготовка прогнозів

Лабораторна робота: Створення лінійної регресійної моделі

Створення кластера
Створення регресійної моделі
Генерація даних для складання прогнозів
Використання моделі для складання прогнозів і порівняння результатів

Модуль 7: Створення та оцінка партиціоніруваних моделей (Partitioning Model)

У цьому модулі описується, як створювати і обраховувати партіціонірованние моделі.

Теми

Створення партиціоніруваних моделей на основі дерева рішень.
Тестування прогнозів партиціоніруваних моделей

Лабораторна робота: Створення та оцінка партиціоніруваних моделей

Розбиття набору даних
Побудова моделей
Підготовка прогнозу і тестування результатів
Порівняння результатів

Модуль 8: Обробка великих даних в SQL Server і Hadoop

Цей модуль описує як перетворювати і зачищати набори великих даних в SQL Server і Hadoop

Теми

Використання R в SQL Server
Використання Map / Reduce в Hadoop
Використання Hadoop Spark

Лабораторна робота: Обробка великих даних в SQL Server і Hadoop

Створення моделі і прогнозування результатів в SQL Server
Аналіз і висновок результату за допомогою Map / Reduce в Hadoop
Інтеграція скрипту sparklyr в робочий процес ScaleR

Для ефективного навчання на курсі слухачі повинні володіти такими знаннями і навичками:

Досвід програмування на R і знайомство з основними пакетами
Знання загальних статистичних методів і рекомендованих методів аналізу даних
Базові знання операційної системи Windows і її основних можливостей

Запис на курс

Код курсу	WBD-4
Тривалість	3 д (24 ч)
Код екзамену
Вартість без ПДВ	21 000 грн.

Аналіз великих даних за допомогою Microsoft R

У зв'язку з карантином всі наші курси читаються у online-форматі.