Описание курса:

Данный курс ориентирован на специалистов в различных областях информационных технологий, имеющих опыт в программировании и желающих получить представление о современных методах машинного обучения с использованием технологии BigData. Эти методы применимы в анализе сырых данных, поиске скрытых закономерностей, решении задач классификации и прогнозирования.

После изучения курса Вы сможете:

  • применять основной инструментарий специалиста в области Data Science: язык программирования Python, библиотеки numpy, pandas, matplotlib, scikit-learn,  среды разработки PyCharm, Jupyter Notebook;
  • решать задачи классификации, кластеризации и регрессии при помощи алгоритмов машинного обучения, а также оценивать качество моделей;
  • строить системы машинного обучения на основе данных большого объема с использованием BigData-фреймворка Spark.

Программа курса:

  • Модуль 1. Введение в анализ данных и машинное обучение
    • Процесс анализа данных
    • Классические задачи машинного обучения.
    • No free lunch теорема
    • Понятие Big Data
    • Инструментарий для анализа данных: языки программирования Python и R
  • Модуль 2. Введение в программирование на Python
    • Типы данных
    • Встроенные контейнеры
    • Операторы ветвления и циклов
  • Модуль 3. Функции и модули в Python
    • Элементы функционального программирования
    • Создание собственных модулей и пакетов
    • Использование пакетов сторонних разработчиков: pip, conda и virtualenv
  • Модуль 4. Введение в объектно-ориентированное программирование на Python
    • Инкапсуляция, наследование, полиморфизм
  • Модуль 5. Инструментарий разработчика
    • PyCharm, iPython, Jupyter Notebook, Yhat Rodeo
    • Краткое введение в программирование на R
    • Базовые структуры данных в R
  • Модуль 6. Управляющие структуры в R
    • Работа с модулями и библиотечными функциями
    • Среда RStudio
  • Модуль 7. Математические основы Data Science
    • линейная алгебра и теория вероятностей
    • Вычисления с использованием пакета NumPy
  • Модуль 8. Анализ и визуализация данных
    • Анализ сырых данных с использованием библиотеки pandas
    • Визуализация данных с помощью пакетов matplotlib, seaborn
  • Модуль 9. Машинное обучение на Python: библиотека scikit-learn
    • Классификация и регрессия
    • Алгоритм ближайшего соседа
    • Понятие проклятия размерностей
    • Оценка точности модели
    • Метод перекрестной валидации
  • Модуль 10. Наивный Байесовский классификатор
    • Логистическая регрессия, ID3
    • Классификация на несколько классов
    • Support Vector Machines
  • Модуль 11. Задача кластеризации
    • Алгоритмы K-Means и DBSCAN
  • Модуль 12. Введение в нейронные сети
    • Обучение перцептрона
    • Классификация на основе нейронных сетей
  • Модуль 13. Введение в Big Data
    • Источники данных: HDFS, Apache Kafka
    • Пакет pySpark

Минимальные требования:

  • Опыт программирования на любом процедурном языке;
  • Знания математики в рамках школьного курса.

* Указанные скидки не суммируются с другими действующими акциями и специальными предложениями. Если у Вас возникли вопросы, обращайтесь за консультацией к нашим менеджерам!