Анализ больших данных с помощью Microsoft R
Цель курса – предоставить слушателям знания и навыки, необходимые для создания и запуска сценариев анализа больших данных на сервере Microsoft R. Также в курсе описано как работать с Microsoft R в средах обработки больших данных как Hadoop, кластер Spark или база SQL Server
Аудитория
Этот курс предназначен для специалистов, анализирующих огромные наборы данных, а также разработчиков, использующих R в своих проектах.
По окончании курса слушатели смогут:
- Описать работу Microsoft R;
- Использовать клиента R и Server R для обработки больших данных из разных хранилищ
- Визуализировать данные с помощью графиков и схем
- Преобразовывать и зачищать наборы больших данных
- Использовать способы разделения аналитических задач на параллельные задачи
- Построить и оценить регрессионные модели, генерируемые на основе больших данных
- Создать, оценить и разворачивать партиционированных моделей на основе больших данных
- Использовать язык R в средах SQL Server и Hadoop
Сертификационные экзамены
Сертификационные экзамены не предусмотрены.
Модуль 1: Сервер и клиент Microsoft R
Этот модуль рассказывает, как работают сервер и клиент Microsoft R.
Темы
- Обзор сервера Microsoft R
- Использование клиента Microsoft R
- Функции ScaleR
Лабораторная работа: Обзор сервера и клиента Microsoft R
- Использование клиента R в VSTR и RStudio
- Обзор функций ScaleR
- Подключение к удалённому серверу
Модуль 2: Обзор больших данных
Этот модуль описывает, как предоставлять доступ клиентам к большим данным из разных хранилищ с помощью сервера Microsoft R.
Темы
- Источники данных ScaleR
- Чтение данных в XDF-объекте
- Обобщение данных в XDF-объекте
Лабораторная работа: Обзор больших данных
- Чтение локального CSV-файла и передача данных в XDF-файл
- Преобразование данных на входе
- Чтение данных из SQL Server и передача в XDF-файл
- Подведение итогов в XDF-файле
Модуль 3:Визуализация больших данных
Этот модуль описывает, как визуализировать большие данные, используя диаграммы и графики.
Темы
- Визуализация данных в памяти
- Визуализации больших данных
Лабораторная работа: Визуализация данных
- Использование ggplot для создания многогранной диаграммы с наложением
- Использование rxlinePlot и rxHistogram
Модуль 4: Обработка больших данных
Этот модуль описывает, как преобразовывать и вычищать наборы больших данных.
Темы
- Преобразование больших данных
- Управление наборами данных
Лабораторная работа: Обработка больших данных
- Преобразование больших данных
- Сортировка и слияние больших данных
- Подключение к удаленному серверу
Модуль 5: Распараллеливание операций анализа
Этот модуль описывает, как разбивать задачу анализа набора данных на параллельно выполняемые подзадачи.
Темы
- Использование вычислительного контекста RxLocalParallel с функцией rxExec
- Использование пакета revoPemaR
Лабораторная работа: Использование rxExec и revoPemaR для распараллеливания операций
- Использование rxExec для оптимизации использования ресурсов
- Создание и применение класса PEMA
Модуль 6: Создание и оценка регрессионной модели
Этот модуль объясняет, как создавать и оценивать регрессионные модели на базе больших данных.
Темы
- Кластеризации больших данных
- Создание регрессионных моделей и подготовка прогнозов
Лабораторная работа: Создание линейной регрессионной модели
- Создание кластера
- Создание регрессионной модели
- Генерация данных для составления прогнозов
- Использование модели для составления прогнозов и сравнение результатов
Модуль 7: Создание и оценка партиционированных моделей (Partitioning Model)
В этом модуле описывается, как создавать и обсчитывать партиционированные модели.
Темы
- Создание партиционированных моделей на основе дерева решений.
- Тестирование прогнозов партиционированных моделей
Лабораторная работа: Создание и оценка партиционированных моделей
- Разбиение набора данных
- Построение моделей
- Подготовка прогноза и тестирование результатов
- Сравнение результатов
Модуль 8: Обработка больших данных в SQL Server и Hadoop
Этот модуль описывает, как преобразовывать и зачищать наборы больших данных в SQL Server и Hadoop
Темы
- Использование R в SQL Server
- Использование Map/Reduce в Hadoop
- Использование Hadoop Spark
Лабораторная работа: Обработка больших данных в SQL Server и Hadoop
- Создание модели и прогнозирования результатов в SQL Server
- Анализ и вывод результата с помощью Map/Reduce в Hadoop
- Интеграция скрипта sparklyr в рабочий процесс ScaleR
Для эффективного обучения на курсе, слушатели должны обладать следующими знаниями и навыками:
- Опыт программирования на R и знакомство с основными пакетами
- Знание общих статистических методов и рекомендованных методов анализа данных.
- Базовые знания операционной системы Windows и ее основных возможностей.
Запись на курс
Код курса | WBD-4 |
---|---|
Длительность | 3 д (24 ч) |
Код экзамена | |
Стоимость без НДС | 14 100 грн. |