Python/R for Data Science
Описание курса
Как понять, достаточно ли вы сильны для прохождения этого курса? Просто дайте самому себе ответы на следующие вопросы: интересует ли вас работа с данными (таблицами данных), манипуляции с ними и их визуализация? Помните ли вы из школы /университета/работы суть понятий «медиана», «мода», «распределение вероятностей»? Если ответы положительные, то у вас хорошие шансы на успешное прохождение курса.
Этот курс будет полезен:
- Специалистам, которые хотят начать карьеру в Data science;
- Специалистам по Data science, которые еще не освоили возможности работы с данными в Python или R;
- Специалистам, работающим с данными (аналитикам, бизнес-аналитикам, исследователям), которые хотят освоить новые гибкие инструменты для работы с данными.
Философия курса: обратите внимание, что этот курс не сделает из вас полноценных разработчиков на Python или R. С точки зрения data science, это, в первую очередь, два удобных инструменты для выполнения рабочих задач.
После курса вы сможете:
- Понимать основные алгоритмы машинного обучения и практически их использовать для задач классификации и регрессии
- Анализировать данные и строить модели машинного обучения с помощью языков Python и R
- Делать качественные и интерактивные визуализации данных
Программа курса:
Модуль 1. Введение в машинного обучения и Data science
- Определение машинного обучения и науки о данных, их задачи.
- Инструментарий для анализа данных: языки программирования Python и R.
- Типы машинного обучения.
- Составные части модели машинного обучения.
- Базовые концепты машинного обучения.
Модуль 2. Основы языков программирования Python и R для Data science
- IDE для удобной работы: Jupyter, Spyder & Rstudio.
- Семантика языка.
- Типы данных.
- Структуры данных.
- Операторы контроля исполнения (разветвления и циклов).
- Векторизация в Python (numpy) i R.
Модуль 3. Функциональное программирование в Python и R
- Comprehension, Generators, Iterators в Python.
- Функции в Python i R.
- Встроенные функции Python.
- Apply-family функции в R.
- Библиотека purrr для функционального программирования в R.
Модуль 4. Исследование и подготовка данных к анализу
- Numpy.
- Pandas.
- Фильтрация и агрегация данных в dplyr.
- Long & wide форматы таблиц, их преобразования в библиотеках pandas & tidyr.
Модуль 5. Визуализация данных в R i Python
- Визуализация данных в R.
- ggplot2 - grammar of graphics.
- Интерактивная графика в R.
- Matplotlib & seaborn.
Модуль 6. Основные понятия статистического анализа
- Scipy.stats.
- Описательные статистики.
- Зависимости между переменными.
Модуль 7. Типичные проблемы в подготовке данных к анализу
- Преобразование факторных переменных.
- Борьба с пробелами в данных.
- Проблема мультиколлинеарности.
- Шкалирования данных.
- Выбор информативных переменных для модели.
- Типичный алгоритм подготовки данных к моделированию.
Модуль 8. Базовые регрессионные модели
- Линейная регрессия.
- Полиномиальная регрессия.
- Метод ближайших соседей.
- Метрики оценки качества регрессии.
- Тюнинг регрессионных моделей.
Модуль 9. Базовые модели классификации
- Логистическая регрессия.
- Метод опорных векторов.
- Наивный Байесовский классификатор.
- Метрики оценки качества классификации.
- Тюнинг параметров моделей классификации.
Модуль 10. Базовые модели кластеризации и снижения размерности
- Метод к-средних.
- Иерархический кластерный анализ.
- DBSCAN.
- Анализ.
- Кореспонденс-анализ.
Модуль 11. Деревья решений и ансамбли
- Базовые древовидные модели.
- Random forest.
- Xgboost, lightgbm.
- Тюнинг гиперпараметров в ансамблевых моделях.
Модуль 12. Методы улучшения качества моделей машинного обучения
- Аугментация.
- Feature engineering.
- Cross-validation.
- Борьба с переобучением.
- Борьба с дисбалансом данных.
- Регуляризация модели.
Модуль 13. Введение в архитектуры нейронных сетей. Нейронные сети для классификации изображений
- Keras.
- tensorflow.
- Персептрон.
- CNN.
Модуль 14. Прогнозирование временных рядов
- AR, MA, ARMA.
- ARIMA.
- VAR.
- Lstm.
Модуль 15. Документация data science проектов, data science in prod
- Пути организации продакшна для data science-проектов.
- Специфика документации data science проектов.
- Markdown, Latex.
Модуль 16. Практикум по пути улучшения качества моделей
- Презентация и обсуждение курсовых проектов
- Подведение итогов курса
Минимальные требования:
- Опыт программирования на любом процедурном языке
- Знание математики в рамках школьного курса
- Наличие собственного ноутбука для занятий в аудиториях
Лекторы:
1. Денис Ширман (Data Scientist)
2. Олег Сорокин (Machine Learning Engineer)
* Примечание: указанные скидки не суммируются с другими действующими акциями и специальными предложениями. Скидка применяется только к новым заявкам и при условии полной оплаты. Если у Вас возникли вопросы, обращайтесь за консультацией к нашим менеджерам!