spinner-it

Python/R for Data Science

Старт навчання
15.04.2021
51 год. по 2-3 рази на тиждень

Опис курсу

Як зрозуміти, чи достатньо ви сильні для проходження цього курсу? Просто дайте самому собі відповіді на наступні питання: чи цікавить вас робота з даними (таблицями даних), маніпуляції з ними та їх візуалізація? Чи пам’ятаєте ви зі школи/університету/роботи суть понять “медіана”, “мода”, “розподіл ймовірностей”? Якщо відповіді позитивні, то у вас хороші шанси на успішне проходження курсу.

 

Цей курс буде корисним:

1. Фахівцям, які хочуть почати кар’єру в Data science.

2. Фахівцям з Data science, які ще не опанували можливості роботи з даними в Python чи R.

3. Спеціалістам, які працюють з даними (аналітикам, бізнес-аналітикам, дослідникам), які хочуть опанувати нові гнучкі інструменти для роботи з даними.

 

Філософія курсу: зверніть увагу, що цей курс не зробить з вас повноцінних розробників на Python чи R. З точки зору data science, це, у першу чергу,  два зручних інструменти для виконання робочих задач.

Після курсу Ви зможете:

  • Розуміти основні алгоритми машинного навчання та практично їх використовувати для задач класифікації та регресії
  • Аналізувати дані та будувати моделі машинного навчання за допомогою Python i R
  • Робити якісні й інтерактивні візуалізації даних

Програма курсу:

Модуль 1. Вступ до машинного навчання та Data Science

  • Визначення машинного навчання та науки про дані, їх задачі.
  • Інструментарій для аналізу даних: мови програмування Python і R.
  • Типи машинного навчання.
  • Складові частини моделі машинного навчання.
  • Базові концепти машинного навчання.

Модуль 2. Основи мов програмування Python і R для Data science

  • IDE для зручної роботи: Jupyter, Spyder & Rstudio.
  • Семантика мови.
  • Типи даних.
  • Структури даних.
  • Оператори контролю виконання (розгалуження та циклів).
  • Векторизація в Python (numpy) i R.

Модуль 3. Функціональне програмування в Python i R

  • Comprehension, Generators, Iterators в Python.
  • Функції в Python i R.
  • Вбудовані функції Python.
  • Apply-family функції в R.
  • Бібліотека purrr для функціонального програмування в R.

Модуль 4. Дослідження та підготовка даних до аналізу

  • Numpy.
  • Pandas.
  • Фільтрація та агрегація даних в dplyr.
  • Long & wide формати таблиць, їх перетворення в бібліотеках pandas & tidyr.

Модуль 5. Візуалізація даних в R i Python

  • Візуалізація даних в R.
  • ggplot2 - grammar of graphics.
  • Інтерактивна графіка в R.
  • Matplotlib & seaborn.

Модуль 6. Базові поняття статистичного аналізу

  • Scipy.stats.
  • Описові статистики.
  • Залежності між змінними.

Модуль 7. Типові проблеми у підготовці даних до аналізу

  • Перетворення факторних змінних.
  • Боротьба з пропусками в даних.
  • Проблема мультиколінеарності.
  • Шкалювання даних.
  • Вибір інформативних змінних для моделі.
  • Типовий алгоритм підготовки даних до моделювання.

Модуль 8. Базові регресійні моделі

  • Лінійна регресія.
  • Поліноміальна регресія.
  • Метод найближчих сусідів.
  • Метрики оцінки якості регресії.
  • Тюнінг регресійних моделей.

Модуль 9. Базові моделі класифікації

  • Логістична регресія.
  • Метод опорних векторів.
  • Наївний байєсівський класифікатор.
  • Метрики оцінки якості класифікації.
  • Тюнінг параметрів моделей класифікації.

Модуль 10. Базові моделі кластеризації та зниження розмірності

  • Метод к-середніх.
  • Ієрархічний кластерний аналіз.
  • DBSCAN.
  • Факторний аналіз.
  • Кореспонденс-аналіз.

Модуль 11. Дерева прийняття рішень та ансамблі

  • Базові деревовидні моделі.
  • Random forest.
  • Xgboost, lightgbm.
  • Тюнінг гіперпараметрів у ансамблевих моделях.

Модуль 12. Методи покращення якості моделей машинного навчання

  • Аугментація.
  • Feature engineering.
  • Cross-validation.
  • Боротьба з перенавчанням.
  • Боротьба з дисбалансом даних.
  • Регуляризація моделі.

Модуль 13. Вступ до архітектур нейронних мереж. Нейронні мережі для класифікації зображень

  • Keras.
  • tensorflow.
  • Перцептрон.
  • CNN.

Модуль 14. Прогнозування часових рядів

  • AR, MA, ARMA.
  • ARIMA.
  • VAR.
  • Lstm.

Модуль 15. Документація data science проектів, data science in prod

  • Шляхи організації продакшну для data science-проектів.
  • Специфіка документації data science проектів.
  • Markdown, Latex.

Модуль 16. Практикум з шляхів покращення якості моделей

  • Презентація і обговорення курсових проектів
  • Підбиття підсумків курсу

Мінімальні вимоги:

  • Досвід програмування будь-якою процедурною мовою
  • Знання математики в рамках шкільного курсу
  • Наявність власного ноутбуку для занять в аудиторіях

* Примітка: зазначені знижки не сумуються з іншими діючими акціями та спеціальними пропозиціями. Знижка застосовується тільки до нових заявок та при умові повної оплати курсу. Якщо у Вас виникли питання, звертайтеся за консультацією до наших менеджерів!