Python/R for Data Science
Опис курсу
Як зрозуміти, чи достатньо ви сильні для проходження цього курсу? Просто дайте самому собі відповіді на наступні питання: чи цікавить вас робота з даними (таблицями даних), маніпуляції з ними та їх візуалізація? Чи пам’ятаєте ви зі школи/університету/роботи суть понять “медіана”, “мода”, “розподіл ймовірностей”? Якщо відповіді позитивні, то у вас хороші шанси на успішне проходження курсу.
Цей курс буде корисним:
1. Фахівцям, які хочуть почати кар’єру в Data science.
2. Фахівцям з Data science, які ще не опанували можливості роботи з даними в Python чи R.
3. Спеціалістам, які працюють з даними (аналітикам, бізнес-аналітикам, дослідникам), які хочуть опанувати нові гнучкі інструменти для роботи з даними.
Філософія курсу: зверніть увагу, що цей курс не зробить з вас повноцінних розробників на Python чи R. З точки зору data science, це, у першу чергу, два зручних інструменти для виконання робочих задач.
Після курсу Ви зможете:
- Розуміти основні алгоритми машинного навчання та практично їх використовувати для задач класифікації та регресії
- Аналізувати дані та будувати моделі машинного навчання за допомогою Python i R
- Робити якісні й інтерактивні візуалізації даних
Програма курсу:
Модуль 1. Вступ до машинного навчання та Data Science
- Визначення машинного навчання та науки про дані, їх задачі.
- Інструментарій для аналізу даних: мови програмування Python і R.
- Типи машинного навчання.
- Складові частини моделі машинного навчання.
- Базові концепти машинного навчання.
Модуль 2. Основи мов програмування Python і R для Data science
- IDE для зручної роботи: Jupyter, Spyder & Rstudio.
- Семантика мови.
- Типи даних.
- Структури даних.
- Оператори контролю виконання (розгалуження та циклів).
- Векторизація в Python (numpy) i R.
Модуль 3. Функціональне програмування в Python i R
- Comprehension, Generators, Iterators в Python.
- Функції в Python i R.
- Вбудовані функції Python.
- Apply-family функції в R.
- Бібліотека purrr для функціонального програмування в R.
Модуль 4. Дослідження та підготовка даних до аналізу
- Numpy.
- Pandas.
- Фільтрація та агрегація даних в dplyr.
- Long & wide формати таблиць, їх перетворення в бібліотеках pandas & tidyr.
Модуль 5. Візуалізація даних в R i Python
- Візуалізація даних в R.
- ggplot2 - grammar of graphics.
- Інтерактивна графіка в R.
- Matplotlib & seaborn.
Модуль 6. Базові поняття статистичного аналізу
- Scipy.stats.
- Описові статистики.
- Залежності між змінними.
Модуль 7. Типові проблеми у підготовці даних до аналізу
- Перетворення факторних змінних.
- Боротьба з пропусками в даних.
- Проблема мультиколінеарності.
- Шкалювання даних.
- Вибір інформативних змінних для моделі.
- Типовий алгоритм підготовки даних до моделювання.
Модуль 8. Базові регресійні моделі
- Лінійна регресія.
- Поліноміальна регресія.
- Метод найближчих сусідів.
- Метрики оцінки якості регресії.
- Тюнінг регресійних моделей.
Модуль 9. Базові моделі класифікації
- Логістична регресія.
- Метод опорних векторів.
- Наївний байєсівський класифікатор.
- Метрики оцінки якості класифікації.
- Тюнінг параметрів моделей класифікації.
Модуль 10. Базові моделі кластеризації та зниження розмірності
- Метод к-середніх.
- Ієрархічний кластерний аналіз.
- DBSCAN.
- Факторний аналіз.
- Кореспонденс-аналіз.
Модуль 11. Дерева прийняття рішень та ансамблі
- Базові деревовидні моделі.
- Random forest.
- Xgboost, lightgbm.
- Тюнінг гіперпараметрів у ансамблевих моделях.
Модуль 12. Методи покращення якості моделей машинного навчання
- Аугментація.
- Feature engineering.
- Cross-validation.
- Боротьба з перенавчанням.
- Боротьба з дисбалансом даних.
- Регуляризація моделі.
Модуль 13. Вступ до архітектур нейронних мереж. Нейронні мережі для класифікації зображень
- Keras.
- tensorflow.
- Перцептрон.
- CNN.
Модуль 14. Прогнозування часових рядів
- AR, MA, ARMA.
- ARIMA.
- VAR.
- Lstm.
Модуль 15. Документація data science проектів, data science in prod
- Шляхи організації продакшну для data science-проектів.
- Специфіка документації data science проектів.
- Markdown, Latex.
Модуль 16. Практикум з шляхів покращення якості моделей
- Презентація і обговорення курсових проектів
- Підбиття підсумків курсу
Мінімальні вимоги:
- Досвід програмування будь-якою процедурною мовою
- Знання математики в рамках шкільного курсу
- Наявність власного ноутбуку для занять в аудиторіях
* Примітка: зазначені знижки не сумуються з іншими діючими акціями та спеціальними пропозиціями. Знижка застосовується тільки до нових заявок та при умові повної оплати курсу. Якщо у Вас виникли питання, звертайтеся за консультацією до наших менеджерів!