Аналіз великих даних за допомогою Microsoft R
Мета курсу - надати слухачам знання та навички, необхідні для створення і запуску сценаріїв аналізу великих даних на сервері Microsoft R. Також в курсі описано як працювати з Microsoft R в середовищах обробки великих даних як Hadoop, кластер Spark або база SQL Server
Аудиторія
Цей курс призначений для фахівців, які аналізують величезні набори даних, а також розробників, які використовують R в своїх проектах.
Після закінчення курсу слухачі зможуть:
- Описати роботу Microsoft R
- Використовувати клієнта R і Server R для обробки великих даних з різних сховищ
- Візуалізувати дані за допомогою графіків і схем
- Перетворювати і зачищати набори великих даних
- Використовувати способи поділу аналітичних задач на паралельні завдання
- Побудувати і оцінити регресивні моделі, які генеруються на основі великих даних
- Створити, оцінити і розгортати партиціоніруваних моделей на основі великих даних
- Використовувати мову R в середовищах SQL Server і Hadoop
Сертифікаційні іспити
Сертифікаційні іспити не передбачені.
Модуль 1: Сервер і клієнт Microsoft R
Цей модуль розповідає як працюють сервер і клієнт Microsoft R.
Теми
- Огляд сервера Microsoft R
- Використання клієнта Microsoft R
- Функції ScaleR
Лабораторна робота: Огляд сервера і клієнта Microsoft R
- Використання клієнта R в VSTR і RStudio
- Огляд функцій ScaleR
- Підключення до віддаленого сервера
Модуль 2: Огляд великих даних
Цей модуль описує як надавати доступ клієнтам до великих даними з різних сховищ за допомогою сервера Microsoft R.
Теми
- Джерела даних ScaleR
- Читання даних в XDF-об'єкті
- Узагальнення даних в XDF-об'єкті
Лабораторна робота: Огляд великих даних
- Читання локального CSV-файлу і передача даних в XDF-файл
- Перетворення даних на вході
- Читання даних з SQL Server і передача в XDF-файл
- Підведення підсумків в XDF-файлі
Модуль 3: Візуалізація великих даних
Цей модуль описує як візуалізувати великі дані, використовуючи діаграми і графіки.
Теми
- Візуалізація даних в пам'яті
- Візуалізації великих даних
Лабораторна робота: Візуалізація даних
- Використання ggplot для створення багатогранної діаграми з накладенням
- Використання rxlinePlot і rxHistogram
Модуль 4: Обробка великих даних
Цей модуль описує, як перетворювати і вичищати набори великих даних.
Теми
- Перетворення великих даних
- Управління наборами даних
Лабораторна робота: Обробка великих даних
- Перетворення великих даних
- Сортування і злиття великих даних
- Підключення до віддаленого серверу
Модуль 5: Розпаралелювання операцій аналізу
Цей модуль описує, як розбивати задачу аналізу набору даних на паралельно виконувані підзадачі.
Теми
- Використання обчислювального контексту RxLocalParallel з функцією rxExec
- Використання пакету revoPemaR
Лабораторна робота: Використання rxExec і revoPemaR для розпаралелювання операцій
- Використання rxExec для оптимізації використання ресурсів
- Створення і застосування класу PEMA
Модуль 6: Створення та оцінка регресійній моделі
Цей модуль пояснює як створювати й оцінювати регресивні моделі на базі великих даних.
Теми
- Кластеризації великих даних
- Створення регресійних моделей і підготовка прогнозів
Лабораторна робота: Створення лінійної регресійної моделі
- Створення кластера
- Створення регресійної моделі
- Генерація даних для складання прогнозів
- Використання моделі для складання прогнозів і порівняння результатів
Модуль 7: Створення та оцінка партиціоніруваних моделей (Partitioning Model)
У цьому модулі описується, як створювати і обраховувати партіціонірованние моделі.
Теми
- Створення партиціоніруваних моделей на основі дерева рішень.
- Тестування прогнозів партиціоніруваних моделей
Лабораторна робота: Створення та оцінка партиціоніруваних моделей
- Розбиття набору даних
- Побудова моделей
- Підготовка прогнозу і тестування результатів
- Порівняння результатів
Модуль 8: Обробка великих даних в SQL Server і Hadoop
Цей модуль описує як перетворювати і зачищати набори великих даних в SQL Server і Hadoop
Теми
- Використання R в SQL Server
- Використання Map / Reduce в Hadoop
- Використання Hadoop Spark
Лабораторна робота: Обробка великих даних в SQL Server і Hadoop
- Створення моделі і прогнозування результатів в SQL Server
- Аналіз і висновок результату за допомогою Map / Reduce в Hadoop
- Інтеграція скрипту sparklyr в робочий процес ScaleR
Для ефективного навчання на курсі слухачі повинні володіти такими знаннями і навичками:
- Досвід програмування на R і знайомство з основними пакетами
- Знання загальних статистичних методів і рекомендованих методів аналізу даних
- Базові знання операційної системи Windows і її основних можливостей
Запис на курс
Код курсу | WBD-4 |
---|---|
Тривалість | 3 д (24 ч) |
Код екзамену | |
Вартість без ПДВ | 21 000 грн. |