spinner-it

Big Data

Старт обучения
Берестейская Дату уточните у администрации
Позняки Дату уточните у администрации
36 час. по 2-3 раза в неделю

Описание курса

В результате прохождения курса студенты овладеют современными методами и алгоритмами теории интеллектуального анализа больших данных и машинного обучения. Цель курса — формирование реальных навыков в анализе, обработке, поиске шаблонов и построении прогнозов на основе данных.

После курса вы сможете:

  • анализировать и обрабатывать большие и сверхбольшие данные в различных форматах с целью поддержки принятия решений
  • находить шаблоны в больших и сверхбольших базах данных и массивах текста
  • строить прогнозы с использованием современных методов и алгоритмов интеллектуального анализа данных;
  • использовать программное обеспечение для интеллектуального анализа данных в практической работе.

Программа курса:

  • Общие сведения о интеллектуальный анализ данных (ИАД) и машинное обучение
    • Общие сведения о крупных данные и интеллектуальный анализ данных.
    • Задачи ИАД. Обзор методов ИАД и машинного обучения
    • Процесс ИАД. Подготовка данных.
    • Практическое применение ИАД.
  • Методы и алгоритмы классификации
    • Методы построения деревьев решений. Методика «разделяй и властвуй».
    • Алгоритм покрытия. Алгоритм CART.
    • Байесивськи методы классификации.
    • Построение математических функции классификации. Метод опорных векторов: линейный и нелинейный случаи.
    • Системы с нечеткой логикой. Нечетко-нейронные системы. Настройка нечетко-нейронных систем.
    • Решение практических задач классификации.
  • Методы и алгоритмы кластеризации
    • Иерархическая кластеризация: агломеративного и дивизимний алгоритмы. Методы соседства. Понятие дендрограммы.
    • Статистические методы k-средних, ЭМ и их модификации.
    • Методы кластеризации на основе теории графов. Алгоритмы нахождения минимального покрывающего дерева. Алгоритм Борувка.
    • Алгоритм Форел и его модификации.
    • Метод самоорганизующихся карт Кохонена. Метод стохастического градиента. Интерпретация карт.
    • Анализ результатов кластеризации. Решение практических задач.
  • Методы и алгоритмы построения ассоциативных правил. Секвенциальный анализ
    • Общие сведения. Показатели полезности ассоциативных правил.
    • Алгоритмы Apriori и FP-роста. Понятие FP-дерева (префиксного дерева).
    • Шаблоны последовательностей. Алгоритм AprioriAll.
    • Поиск ассоциативных правил в иерархиях данных. Алгоритм GSP.
    • Решение практических задач поиска ассоциативных правил и шаблонов последовательностей.
  • Ансамбли моделей ИАД
    • Виды ансамблей. Понятие беггинга. Смесь моделей ИАД.
    • Комбинирование результатов прогнозов, полученных моделями ИАД.
    • Методы расчета коэффициентов относительной важности (весов) моделей в ансамбле.
    • Понятие бустингу. Алгоритм AdaBoost. Обоснование бустинга. Градиентный бустинг.
    • Сравнение моделей ИАД. Оценки эффективности и ошибок моделей. Lift- и Profit-кривые. ROC-анализ.
  • Методы и алгоритмы анализа текстовой информации (text mining)
    • Этапы text mining. Предварительная обработка документов. Выявление ключевых понятий. Аннотирование текстов.
    • Методы категоризации (рубрикации) текстов.
    • Методы поиска релевантных документов на основе множества запросов. Методы обучения ранжирование.
    • Решение практических задач text mining.

Минимальные требования:

  • Очень желательно (но не обязательно) владение знаниями теории вероятностей: дискретная и непрерывная случайная величина, математическое ожидание, дисперсия, условное математическое ожидание;
  • Владение на начальном уровне языком программирования Python.

* Примечание: указанные скидки не суммируются с другими действующими акциями и специальными предложениями. Скидка применяется только к новым заявкам и при условии полной оплаты. Если у Вас возникли вопросы, обращайтесь за консультацией к нашим менеджерам!