Опис курсу:

Даний курс орієнтований на фахівців в різних галузях інформаційних технологій, що мають досвід програмування і бажають отримати уявлення про сучасні методи машинного навчання з використанням технології BigData. Ці методи застосовуються в аналізі сирих даних, пошуку прихованих закономірностей, вирішенні задач класифікації та прогнозування.

Після вивчення курсу Ви зможете:

  • Застосовувати основний інструментарій фахівця в області Data Science: мова програмування Python, бібліотеки numpy, pandas, matplotlib, scikit-learn, середовища розробки PyCharm, Jupyter Notebook;
  • Вирішувати завдання класифікації, кластеризації та регресії за допомогою алгоритмів машинного навчання, а також оцінювати якість моделей;
  • Будувати системи машинного навчання на основі даних великого обсягу з використанням BigData-фреймворка Spark.

Програма курсу:

  • Модуль 1. Введення в аналіз даних і машинне навчання.
    • Процес аналізу даних
    • Класичні завдання машинного навчання
    • No free lunch теорема
    • Поняття Big Data
    • Інструментарій для аналізу даних: мови програмування Python і R
  • Модуль 2. Введення в програмування на Python
    • Типи даних
    • Вбудовані контейнери
    • Оператори розгалуження і циклів
  • Модуль 3. Функції та модулі в Python
    • Елементи функціонального програмування
    • Створення власних модулів і пакетів
    • Використання пакетів сторонніх розробників: pip, conda і virtualenv
  • Модуль 4. Введення в об'єктно-орієнтоване програмування на Python
    • Інкапсуляція, успадкування, поліморфізм
  • Модуль 5. Інструментарій розробника
    • PyCharm, iPython, Jupyter Notebook, Yhat Rodeo
    • Короткий вступ в програмування на R
    • Базові структури даних в R
  • Модуль 6. Керуючі структури в R
    • Робота з модулями і бібліотечними функціями
    • Середовище RStudio
  • Модуль 7. Математичні основи Data Science
    • Лінійна алгебра і теорія ймовірностей
    • Обчислення з використанням пакета NumPy
  • Модуль 8. Аналіз та візуалізація даних
    • Аналіз сирих даних з використанням бібліотеки pandas
    • Візуалізація даних за допомогою пакетів matplotlib, seaborn
  • Модуль 9. Машинне навчання на Python: бібліотека scikit-learn
    • Класифікація і регресія
    • Алгоритм найближчого сусіда
    • Поняття прокляття розмірності
    • Оцінка точності моделі
    • Метод перехресної валідації
  • Модуль 10. Наївний Байєсівський класифікатор
    • Логістична регресія, ID3
    • Класифікація на кілька класів
    • Support Vector Machines
  • Модуль 11. Завдання кластеризації
    • Алгоритми K-Means і DBSCAN
  • Модуль 12. Введення в нейронні мережі
    • Навчання перцептрону
    • Класифікація на основі нейронних мереж
  • Модуль 13. Введення в Big Data
    • Джерела даних: HDFS, Apache Kafka
    • Пакет pySpark

Мінімальні вимоги:

  • Досвід програмування будь-якою процедурною мовою;
  • Знання математики в рамках шкільного курсу.

* Вказані знижки не сумуються з іншими діючими акціями та спеціальними пропозиціями. Якщо у Вас виникли питання, звертайтеся за консультацією до наших менеджерів!