Python/R for Data science

Старт обучения
Берестейская 16.12.2019
Позняки Дату уточните у администрации
ВДНХ Дату уточните у администрации
48 час. по 2-3 раза в неделю

Описание курса

Как понять, достаточно ли вы сильны для прохождения этого курса? Просто дайте самому себе ответы на следующие вопросы: интересует ли вас работа с данными (таблицами данных), манипуляции с ними и их визуализация? Помните ли вы из школы /университета/работы суть понятий «медиана», «мода», «распределение вероятностей»? Если ответы положительные, то у вас хорошие шансы на успешное прохождение курса.   Этот курс будет полезен:
  • Специалистам, которые хотят начать карьеру в Data science;
  • Специалистам по Data science, которые еще не освоили возможности работы с данными в Python или R;
  • Специалистам, работающим с данными (аналитикам, бизнес-аналитикам, исследователям), которые хотят освоить новые гибкие инструменты для работы с данными.
  Философия курса: обратите внимание, что этот курс не сделает из вас полноценных разработчиков на Python или R. С точки зрения data science, это, в первую очередь, два удобных инструменты для выполнения рабочих задач.

После курса вы сможете:

  • Понимать основные алгоритмы машинного обучения и практически их использовать для задач классификации и регрессии;
  • Анализировать данные и строить модели машинного обучения с помощью Python i R;
  • Делать качественные и интерактивные визуализации данных.

Программа курса:

  • Модуль 1. Введение в машинного обучения и Data science
    • Определение машинного обучения и науки о данных, их задачи.
    • Инструментарий для анализа данных: языки программирования Python и R.
    • Типы машинного обучения.
    • Составные части модели машинного обучения.
    • Базовые концепты машинного обучения.
  • Модуль 2. Основы языков программирования Python и R для Data science
    • IDE для удобной работы: Jupyter, Spyder & Rstudio.
    • Семантика языка.
    • Типы данных.
    • Структуры данных.
    • Операторы контроля исполнения (разветвления и циклов).
    • Векторизация в Python (numpy) i R.
  • Модуль 3. Функциональное программирование в Python и R
    • Comprehension, Generators, Iterators в Python.
    • Функции в Python i R.
    • Встроенные функции Python.
    • Apply-family функции в R.
    • Библиотека purrr для функционального программирования в R.
  • Модуль 4. Исследование и подготовка данных к анализу
    • Numpy.
    • Pandas.
    • Фильтрация и агрегация данных в dplyr.
    • Long & wide форматы таблиц, их преобразования в библиотеках pandas & tidyr.
  • Модуль 5. Визуализация данных в R i Python
    • Визуализация данных в R.
    • ggplot2 - grammar of graphics.
    • Интерактивная графика в R.
    • Matplotlib & seaborn.
  • Модуль 6. Основные понятия статистического анализа
    • Scipy.stats.
    • Описательные статистики.
    • Зависимости между переменными.
  • Модуль 7. Типичные проблемы в подготовке данных к анализу
    • Преобразование факторных переменных.
    • Борьба с пробелами в данных.
    • Проблема мультиколлинеарности.
    • Шкалирования данных.
    • Выбор информативных переменных для модели.
    • Типичный алгоритм подготовки данных к моделированию.
  • Модуль 8. Базовые регрессионные модели
    • Линейная регрессия.
    • Полиномиальная регрессия.
    • Метод ближайших соседей.
    • Метрики оценки качества регрессии.
    • Тюнинг регрессионных моделей.
  • Модуль 9. Базовые модели классификации
    • Логистическая регрессия.
    • Метод опорных векторов.
    • Наивный Байесовский классификатор.
    • Метрики оценки качества классификации.
    • Тюнинг параметров моделей классификации.
  • Модуль 10. Базовые модели кластеризации и снижения размерности
    • Метод к-средних.
    • Иерархический кластерный анализ.
    • DBSCAN.
    • Анализ.
    • Кореспонденс-анализ.
  • Модуль 11. Деревья решений и ансамбли
    • Базовые древовидные модели.
    • Random forest.
    • Xgboost, lightgbm.
    • Тюнинг гиперпараметров в ансамблевых моделях.
  • Модуль 12. Методы улучшения качества моделей машинного обучения
    • Аугментация.
    • Feature engineering.
    • Cross-validation.
    • Борьба с переобучением.
    • Борьба с дисбалансом данных.
    • Регуляризация модели.
  • Модуль 13. Вступление в нейронных сетей. Нейронные сети для классификации изображений
    • Keras.
    • tensorflow.
    • Персептрон.
    • CNN.
  • Модуль 14. Прогнозирование временных рядов
    • AR, MA, ARMA.
    • ARIMA.
    • VAR.
    • Lstm.
  • Модуль 15. Документация data science проектов, data science in prod
    • Пути организации продакшна для data science-проектов.
    • Специфика документации data science проектов.
    • Markdown, Latex.
  • Модуль 16. Практикум по пути улучшения качества моделей
    • Презентация и обсуждение курсовых проектов
    • Подведение итогов курса

Минимальные требования:

  • Опыт программирования любой процедурной языке;
  • Знание математики в рамках школьного курса;
  • Наличие собственного ноутбука для занятий в аудиториях

* Примечание: указанные скидки не суммируются с другими действующими акциями и специальными предложениями. Скидка применяется только к новым заявкам и при условии полной оплаты. Если у Вас возникли вопросы, обращайтесь за консультацией к нашим менеджерам!

spinner-it