spinner-it

Python/R for Data Science

Старт обучения
Дату уточните у администрации
51 час. по 2-3 раза в неделю

Описание курса

Как понять, достаточно ли вы сильны для прохождения этого курса? Просто дайте самому себе ответы на следующие вопросы: интересует ли вас работа с данными (таблицами данных), манипуляции с ними и их визуализация? Помните ли вы из школы /университета/работы суть понятий «медиана», «мода», «распределение вероятностей»? Если ответы положительные, то у вас хорошие шансы на успешное прохождение курса.

 

Этот курс будет полезен:

- Специалистам, которые хотят начать карьеру в Data science;

- Специалистам по Data science, которые еще не освоили возможности работы с данными в Python или R;

- Специалистам, работающим с данными (аналитикам, бизнес-аналитикам, исследователям), которые хотят освоить новые гибкие инструменты для работы с данными.

 

Философия курса: обратите внимание, что этот курс не сделает из вас полноценных разработчиков на Python или R. С точки зрения data science, это, в первую очередь, два удобных инструменты для выполнения рабочих задач.

После курса вы сможете:

  • Понимать основные алгоритмы машинного обучения и практически их использовать для задач классификации и регрессии
  • Анализировать данные и строить модели машинного обучения с помощью языков Python и R
  • Делать качественные и интерактивные визуализации данных

Программа курса:

Модуль 1. Введение в машинного обучения и Data science

  • Определение машинного обучения и науки о данных, их задачи.
  • Инструментарий для анализа данных: языки программирования Python и R.
  • Типы машинного обучения.
  • Составные части модели машинного обучения.
  • Базовые концепты машинного обучения.

Модуль 2. Основы языков программирования Python и R для Data science

  • IDE для удобной работы: Jupyter, Spyder & Rstudio.
  • Семантика языка.
  • Типы данных.
  • Структуры данных.
  • Операторы контроля исполнения (разветвления и циклов).
  • Векторизация в Python (numpy) i R.

Модуль 3. Функциональное программирование в Python и R

  • Comprehension, Generators, Iterators в Python.
  • Функции в Python i R.
  • Встроенные функции Python.
  • Apply-family функции в R.
  • Библиотека purrr для функционального программирования в R.

Модуль 4. Исследование и подготовка данных к анализу

  • Numpy.
  • Pandas.
  • Фильтрация и агрегация данных в dplyr.
  • Long & wide форматы таблиц, их преобразования в библиотеках pandas & tidyr.

Модуль 5. Визуализация данных в R i Python

  • Визуализация данных в R.
  • ggplot2 - grammar of graphics.
  • Интерактивная графика в R.
  • Matplotlib & seaborn.

Модуль 6. Основные понятия статистического анализа

  • Scipy.stats.
  • Описательные статистики.
  • Зависимости между переменными.

Модуль 7. Типичные проблемы в подготовке данных к анализу

  • Преобразование факторных переменных.
  • Борьба с пробелами в данных.
  • Проблема мультиколлинеарности.
  • Шкалирования данных.
  • Выбор информативных переменных для модели.
  • Типичный алгоритм подготовки данных к моделированию.

Модуль 8. Базовые регрессионные модели

  • Линейная регрессия.
  • Полиномиальная регрессия.
  • Метод ближайших соседей.
  • Метрики оценки качества регрессии.
  • Тюнинг регрессионных моделей.

Модуль 9. Базовые модели классификации

  • Логистическая регрессия.
  • Метод опорных векторов.
  • Наивный Байесовский классификатор.
  • Метрики оценки качества классификации.
  • Тюнинг параметров моделей классификации.

Модуль 10. Базовые модели кластеризации и снижения размерности

  • Метод к-средних.
  • Иерархический кластерный анализ.
  • DBSCAN.
  • Анализ.
  • Кореспонденс-анализ.

Модуль 11. Деревья решений и ансамбли

  • Базовые древовидные модели.
  • Random forest.
  • Xgboost, lightgbm.
  • Тюнинг гиперпараметров в ансамблевых моделях.

Модуль 12. Методы улучшения качества моделей машинного обучения

  • Аугментация.
  • Feature engineering.
  • Cross-validation.
  • Борьба с переобучением.
  • Борьба с дисбалансом данных.
  • Регуляризация модели.

Модуль 13. Введение в архитектуры нейронных сетей. Нейронные сети для классификации изображений

  • Keras.
  • tensorflow.
  • Персептрон.
  • CNN.

Модуль 14. Прогнозирование временных рядов

  • AR, MA, ARMA.
  • ARIMA.
  • VAR.
  • Lstm.

Модуль 15. Документация data science проектов, data science in prod

  • Пути организации продакшна для data science-проектов.
  • Специфика документации data science проектов.
  • Markdown, Latex.

Модуль 16. Практикум по пути улучшения качества моделей

  • Презентация и обсуждение курсовых проектов
  • Подведение итогов курса

Минимальные требования:

  • Опыт программирования на любом процедурном языке
  • Знание математики в рамках школьного курса
  • Наличие собственного ноутбука для занятий в аудиториях

Лекторы:

1. Денис Ширман (Data Scientist)

 

2. Олег Сорокин (Machine Learning Engineer)

 

* Примечание: указанные скидки не суммируются с другими действующими акциями и специальными предложениями. Скидка применяется только к новым заявкам и при условии полной оплаты. Если у Вас возникли вопросы, обращайтесь за консультацией к нашим менеджерам!