Описание курса:

Данный курс ориентирован на специалистов в различных областях информационных технологий, имеющих опыт в программировании и желающих получить представление о современных методах машинного обучения с использованием технологии BigData. Эти методы применимы в анализе сырых данных, поиске скрытых закономерностей, решении задач классификации и прогнозирования.

После изучения курса Вы сможете:

  • применять основной инструментарий специалиста в области Data Science: язык программирования Python, библиотеки numpy, pandas, matplotlib, scikit-learn,  среды разработки PyCharm, Jupyter Notebook;
  • решать задачи классификации, кластеризации и регрессии при помощи алгоритмов машинного обучения, а также оценивать качество моделей;
  • строить системы машинного обучения на основе данных большого объема с использованием BigData-фреймворка Spark.

Программа курса:

Модуль 1. Введение в машинного обучения и Data science

  • Определение машинного обучения и науки о данных, их задачи
  • Инструментарий для анализа данных: языки программирования Python и R
  • Типы машинного обучения
  • Составные части модели машинного обучения
  • Базовые концепты машинного обучения
Модуль 2. Основы языка программирования Python
  • Интерпретатор Python и запуск программ.
  • Семантика языка.
  • Типы данных.
  • Структуры данных.
  • Операторы контроля исполнения (разветвления и циклов).
Модуль 3. Функциональное программирование в Python
  • Comprehension, Generators, Iterators.
  • Функции в Python.
  • Встроенные функции Python.
Модуль 4. Объектно-ориентированное программирование в Python
  • ООП в Python.
  • Область видимости (namespaces и scope).
  • Основы работы с модулями и пакетами, система импорта.
Модуль 5. Исследование и подготовка данных к анализу
  • Numpy
  • Pandas
  • Scipy
  • Matplotlib & seaborn
Модуль 6. Типичные проблемы в подготовке данных к анализу
  • Преобразование факторных переменных
  • Борьба с пробелами в данных
  • Проблема мультиколлинеарности
  • Скалирование данных
  • Выбор информативных переменных для модели
  • Типичный алгоритм подготовки данных к моделированию
Модуль 7. Базовые регрессионные модели
  • Линейная регрессия
  • Полиномиальная регрессия
  • Метод ближайших соседей
  • Метрики оценки качества регрессии
  • Тюнинг регрессионных моделей
Модуль 8. Базовые модели классификации
  • Логистическая регрессия
  • Метод опорных векторов
  • Наивный Байесовский классификатор
  • Метрики оценки качества классификации
  • Тюнинг параметров моделей классификации
Модуль 9. Базовые модели кластеризации и снижения размерности
  • Метод к-средних
  • Иерархический кластерный анализ
  • DBSCAN
  • Анализ
  • Кореспонденс анализ
Модуль 10. Деревья решений и ансамбли
  • Базовые деревовидные модели
  • Random forest
  • XGBOOST, lightgbm
  • Тюнинг гиперпараметров в ансамблевых моделях
Модуль 11. Методы улучшения качества моделей машинного обучения
  • Аугментация
  • Feature engineering
  • Cross-validation
  • Борьба с переобучением
  • Борьба с дисбалансом данных
  • Регуляризация модели
Модуль 12. Нейронные сети
  • Keras
  • tensorflow
  • RNN
  • CNN
  • GAN
Модуль 13. Введение в Big Data
  • Источники данных: HDFS, Apache Kafka
  • Пакет pySpark
Модуль 14. Практикум по пути улучшения качества моделей
  • Презентация и обсуждение курсовых проектов
  • Подведение итогов курса

Минимальные требования:

  • Опыт программирования на любом процедурном языке;
  • Знания математики в рамках школьного курса.
  • Наличие собственного ноутбука для занятий в аудиториях

* Указанные скидки не суммируются с другими действующими акциями и специальными предложениями. Если у Вас возникли вопросы, обращайтесь за консультацией к нашим менеджерам!