Описание курса:

Этот курс будет полезен:
  • специалистам, которые хотят начать карьеру в Data science;
  • специалистам по Data science, которые еще не освоили возможности работы с данными в R;
  • специалистам, работающим с данными (аналитикам, бизнес-аналитикам, исследователям), которые хотят освоить новую гибкий инструмент работы с данными.

После изучения курса Вы сможете:

  • анализировать данные и строить модели машинного обучения с помощью R
  • делать качественные и интерактивные визуализации данных

Программа курса:

Вступление в работу с данными на R, основные проблемы Data Science

Цель занятия - знакомство с Data Science и проблемами, которые можно решить используя ее. Начало изучения R.
  1. Вступление в Data Science
  2. Знакомство со средой программирования R
 

Base R и базовые понятия статистического анализа

Целью этого занятия является овладеть базовые функции программирования в R и параллельно с этим вспомнить основы статистики и теории вероятностей.  
  1. Переменные и шкалы, в которых они измеряются
  2. Описательные статистики
  3. Зависимости между переменными
  Практическая часть: Exploratory Data Analysis для датасета, выбранных для курсовых проектов.  

Манипуляции с данными в R, библиотеки tidyverse

Целью этого урока является знакомство студентов со средствами, которые позволяют сделать эффективный feature engineering.  
  1. Apply-family функции в R
  2. Фильтрация и агрегация данных в dplyr
  3. Long & wide форматы таблиц, их преобразования в библиотеке tidyr
  4. Работа с time series
  Практическая часть: фильтрация и обработка переменных датасета, выбранных для курсового проекта.  

Визуализация данных в R

  1. ggplot2 - grammar of graphics
  2. Интерактивная графика в R
 

Модели регрессии

  1. Линейная регрессия
  2. Логистическая регрессия
  3. Генерализованные линейные модели
  4. Проблема регуляризации регрессионных моделей
  Практическая часть: имплементация регрессии на данных собственных проектов.  

Модели опорных векторов и Наивный Байес

  1. Типы классификаторов
  2. Работа с библиотеками e1071 и kernlab
  3. Метрики качества моделей множественной классификации
  4. Байесовская вероятность
  5. Имплементация наивного байесовского классификатора в caret
 

Древовидные модели, ансамбли

  1. CART
  2. Random forest
  3. Boosting
  4. Подбор гиперпараметрив в моделях с бустингом
  Практическая часть: реализация ансамблевых моделей на R.  

Кластеризация

  1. Проблема кластеризации
  2. k-means
  3. Иерархический кластерный анализ
 

Уменьшение размерности

  1. Анализ (PCA)
  2. Кореспонденс анализ
 

Выбор и диагностика моделей

  1. Проблема выбора оптимальной метрики для модели
  2. Систематическая и случайная ошибки модели
  3. Диагностика переобучение и недонавчання модели
 

Развертывание и презентация моделей

  1. Автоматизация работы моделей
  2. Автоматизация репортов
 

Практикум по пути улучшения качества моделей

  1. Презентация и обсуждение курсовых проектов
  2. Подведение итогов курса

* Указанные скидки не суммируются с другими действующими акциями и специальными предложениями. Если у Вас возникли вопросы, обращайтесь за консультацией к нашим менеджерам!