spinner-it

Аналіз Великих Даних за допомогою Microsoft R

Мета курсу - надати слухачам знання та навички, необхідні для створення і запуску сценаріїв аналізу великих даних на сервері Microsoft R. Також в курсі описано як працювати з Microsoft R в середовищах обробки великих даних як Hadoop, кластер Spark або база SQL Server АудиторіяЦей курс призначений для фахівців, які аналізують величезні набори даних, а також розробників, які використовують R в своїх проектах. Після закінчення курсу слухачі зможуть:
  • Описати роботу Microsoft R
  • Використовувати клієнта R і Server R для обробки великих даних з різних сховищ
  • Візуалізувати дані за допомогою графіків і схем
  • Перетворювати і зачищати набори великих даних
  • Використовувати способи поділу аналітичних задач на паралельні завдання
  • Побудувати і оцінити регресивні моделі, які генеруються на основі великих даних
  • Створити, оцінити і розгортати партиціоніруваних моделей на основі великих даних
  • Використовувати мову R в середовищах SQL Server і Hadoop
Сертифікаційні іспитиСертифікаційні іспити не передбачені.
Модуль 1: Сервер і клієнт Microsoft RЦей модуль розповідає як працюють сервер і клієнт Microsoft R.Теми
  • Огляд сервера Microsoft R
  • Використання клієнта Microsoft R
  • Функції ScaleR
 Лабораторна робота: Огляд сервера і клієнта Microsoft R
  • Використання клієнта R в VSTR і RStudio
  • Огляд функцій ScaleR
  • Підключення до віддаленого сервера
 Модуль 2: Огляд великих данихЦей модуль описує як надавати доступ клієнтам до великих даними з різних сховищ за допомогою сервера Microsoft R.Теми
  • Джерела даних ScaleR
  • Читання даних в XDF-об'єкті
  • Узагальнення даних в XDF-об'єкті
 Лабораторна робота: Огляд великих даних
  • Читання локального CSV-файлу і передача даних в XDF-файл
  • Перетворення даних на вході
  • Читання даних з SQL Server і передача в XDF-файл
  • Підведення підсумків в XDF-файлі
 Модуль 3: Візуалізація великих данихЦей модуль описує як візуалізувати великі дані, використовуючи діаграми і графіки.Теми
  • Візуалізація даних в пам'яті
  • Візуалізації великих даних
 Лабораторна робота: Візуалізація даних
  • Використання ggplot для створення багатогранної діаграми з накладенням
  • Використання rxlinePlot і rxHistogram
 Модуль 4: Обробка великих данихЦей модуль описує, як перетворювати і вичищати набори великих даних.Теми
  • Перетворення великих даних
  • Управління наборами даних
 Лабораторна робота: Обробка великих даних
  • Перетворення великих даних
  • Сортування і злиття великих даних
  • Підключення до віддаленого серверу
 Модуль 5: Розпаралелювання операцій аналізуЦей модуль описує, як розбивати задачу аналізу набору даних на паралельно виконувані підзадачі.Теми
  • Використання обчислювального контексту RxLocalParallel з функцією rxExec
  • Використання пакету revoPemaR
 Лабораторна робота: Використання rxExec і revoPemaR для розпаралелювання операцій
  • Використання rxExec для оптимізації використання ресурсів
  • Створення і застосування класу PEMA
 Модуль 6: Створення та оцінка регресійній моделіЦей модуль пояснює як створювати й оцінювати регресивні моделі на базі великих даних.Теми
  • Кластеризації великих даних
  • Створення регресійних моделей і підготовка прогнозів
 Лабораторна робота: Створення лінійної регресійної моделі
  • Створення кластера
  • Створення регресійної моделі
  • Генерація даних для складання прогнозів
  • Використання моделі для складання прогнозів і порівняння результатів
 Модуль 7: Створення та оцінка партиціоніруваних моделей (Partitioning Model)У цьому модулі описується, як створювати і обраховувати партіціонірованние моделі.Теми
  • Створення партиціоніруваних моделей на основі дерева рішень.
  • Тестування прогнозів партиціоніруваних моделей
 Лабораторна робота: Створення та оцінка партиціоніруваних моделей
  • Розбиття набору даних
  • Побудова моделей
  • Підготовка прогнозу і тестування результатів
  • Порівняння результатів
 Модуль 8: Обробка великих даних в SQL Server і HadoopЦей модуль описує як перетворювати і зачищати набори великих даних в SQL Server і HadoopТеми
  • Використання R в SQL Server
  • Використання Map / Reduce в Hadoop
  • Використання Hadoop Spark
 Лабораторна робота: Обробка великих даних в SQL Server і Hadoop
  • Створення моделі і прогнозування результатів в SQL Server
  • Аналіз і висновок результату за допомогою Map / Reduce в Hadoop
  • Інтеграція скрипту sparklyr в робочий процес ScaleR
Для ефективного навчання на курсі слухачі повинні володіти такими знаннями і навичками:
  • Досвід програмування на R і знайомство з основними пакетами
  • Знання загальних статистичних методів і рекомендованих методів аналізу даних
  • Базові знання операційної системи Windows і її основних можливостей

Запис на курс

Код курсу20773
Тривалість3д (24ч)
Код екзамену
Вартість без ПДВ14 100 грн.
Найближчі дати
  • 01.06.2020
  • 13.07.2020