Бакалавриат
2020/2021
Введение в машинное обучение
Статус:
Курс по выбору (Бизнес-информатика)
Направление:
38.03.05. Бизнес-информатика
Кто читает:
Департамент бизнес-информатики
Где читается:
Высшая школа бизнеса
Когда читается:
3-й курс, 2 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Сахнюк Павел Анатольевич
Язык:
русский
Кредиты:
3
Контактные часы:
30
Программа дисциплины
Аннотация
Целью дисциплины является формирование у студентов комплекса теоретических знаний и практических навыков использования методов машинного обучения для решения задач анализа данных, применяя передовые инструменты платформ науки о данных и машинного обучения (DSML). Платформы DSML предлагают сочетание базовых и расширенных функциональных возможностей, необходимых для построения прогнозирующих и предписывающих моделей. Платформы также поддерживает включение разработанных решений в бизнес-процессы, окружающую инфраструктуру, продукты и приложения. Они помогают бизнес-аналитикам в следующих областях: получение и подготовка данных, обработка данных и создание признаков для моделей (Feature Engineering), создание, обучение и тестирование моделей машинного обучения, развёртывание и мониторинг созданных моделей, техническое обслуживание и организация совместной работы. Цели освоения дисциплины: - научиться создавать сквозной конвейер машинного обучения для решения задач Data Mining, применяя ведущие Low-code платформы Data Science and Machine Learning: Azure ML Studio, KNIME Analytics Platform, RapidMiner - научиться извлекать максимум из больших массивов данных для быстрой проверки гипотез и построения прогнозов; - быстро строить модели и проверять гипотезы, строить рекомендательную систему и обучать нейронные сети, выявлять скрытые аномалии в данных. Ожидаемые результаты обучения. Знать: основные концепции и методы машинного обучения Иметь практические навыки: применения инструментов современных программных платформ Data Science and Machine Learning, для решения задач Data Mining
Цель освоения дисциплины
- – научиться создавать сквозной конвейер машинного обучения для решения задач Data Mining, применяя ведущие Low-code платформы Data Science and Machine Learning: Azure ML Studio, KNIME Analytics Platform, RapidMiner, H2O.ai Flow
- – научиться извлекать максимум из больших массивов данных для быстрой проверки гипотез и построения прогнозов
- – быстро строить модели и проверять гипотезы, строить рекомендательную систему и обучать нейронные сети, выявлять скрытые аномалии в данных
Планируемые результаты обучения
- Знает основные концепции и методы машинного обучения Имеет практические навыки: применения инструментов современных программных платформ Data Science and Machine Learning, для решения задач машинного обучения.
- Знает основные концепции и методы машинного обучения, применяемые при решении регрессионных задач. Имеет практические навыки применения инструментов современных программных платформ Data Science and Machine Learning, для решения регрессионных задач с помощью алгоритмов машинного обучения.
- Знает основные концепции и методы обучения деревьев решений. Имеет практические навыки применения инструментов современных программных платформ Data Science and Machine Learning, для решения задач классификации и регрессии с помощью деревьев решений.
- Знает основные концепции и методы машинного обучения, основанных на ансамблях (комитетах) моделей. Имеет практические навыки применения инструментов современных программных платформ Data Science and Machine Learning, для решения задач классификации и регрессии с помощью ансамблей моделей.
- Знает основные концепции нейронных сетей и методы их обучения. Имеет практические навыки: применения инструментов современных программных платформ Data Science and Machine Learning, для решения задач машинного обучения с помощью нейронных сетей.
- Знает основные концепции алгоритма кластеризации k-means и нейронных сетей Кохонена. Имеет практические навыки применения инструментов современных программных платформ Data Science and Machine Learning, для решения задач кластеризации
Содержание учебной дисциплины
- Линейные методы классификацииАппроксимация эмпирического риска. Задача оценивания вероятностей, логистическая регрессия. Персептрон. Метрики качества в задачах классификации. Постановки задач многоклассовой и multilabel-классификации. Решение классификационных задач в платформах Data Science and Machine Learning
- Композиции алгоритмовОбщая идея разложения MSE на смещение и разброс. Бэггинг и метод случайных подпространств. Случайные леса. Бустинг. Градиентный бустинг над решающими деревьями. Различные имплементации градиентного бустинга в платформах DSML
- Задача кластеризацииВведение в кластерный анализ, алгоритм k-means. Самоорганизующиеся сети Кохонена, алгоритм функционирования самообучающихся карт. Решение задачи кластерного анализа в платформах Data Science and Machine Learning
- Введение в нейронные сетиНейрон и нейронная сеть. Метод обратного распространения ошибки. Основные типы слоев в нейронных сетях. Реализация многослойных персептронов в платформах DSML
- Решающие деревьяОбщий алгоритм построения, критерии информативности. Построение деревьев решений. Алгоритм CART. Обработка пропущенных значений, стрижка, регуляризация. Сильные и слабые стороны деревьев решений. Решение классификационных задач в платформах Data Science and Machine Learning
- Линейные методы регрессииАналитическое и численное решение задачи МНК. Градиентный метод в машинном обучении. Обучение и функция потерь. Минимизация потерь: итерационный подход. Градиентный спуск, стохастический градиентный спуск. Градиентный спуск с линейной регрессией. Регуляризация. Методы оценивания обобщающей способности, кросс-валидация. Решение регрессионной задачи в платформах Data Science and Machine Learning
- Введение в машинное обучениеВведение. Типы задач в машинном обучении (классификация, регрессия, кластеризация, выявление аномалий и др.). Примеры задач. Виды данных: структурированные таблицы, тексты, изображения, звук, логи. Признаки. Интерфейс платформ DSML c графическим интерфейсом: Azure ML Studio, KNIME Analytics Platform, RapidMiner, H2O.ai Flow
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)0.3 * Домашнее задание + 0.4 * Кейс по индивидуальному заданию + 0.3 * средняя оценка за семинары
Список литературы
Рекомендуемая основная литература
- Data Science : наука о данных с нуля, Грас, Дж., 2018
- Машинное обучение : наука и искусство построения алгоритмов, которые извлекают знания из данных, Флах, П., 2015
- Машинное обучение с использованием библиотеки H2O : мощные и масштабируемые методы для глубокого обучения и ИИ, Кук, Д., 2018
- Основы Data Science и Big data : Python и наука о данных, Силен, Д., 2017
Рекомендуемая дополнительная литература
- Python для сложных задач : наука о данных и машинное обучение, Плас, Дж. В., 2018
- Машинное обучение & TensorFlow, Шакла, Н., 2019
- Машинное обучение без лишних слов, Бурков, А., 2020