Бакалавриат
2020/2021
Введение в анализ данных-2
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Бизнес-информатика)
Направление:
38.03.05. Бизнес-информатика
Где читается:
Высшая школа бизнеса
Когда читается:
3-й курс, 4 модуль
Формат изучения:
без онлайн-курса
Язык:
русский
Кредиты:
3
Контактные часы:
36
Программа дисциплины
Аннотация
Целями освоения дисциплины «Введение в анализ данных» являются овладение студентами моделями и методами интеллектуального анализа данных и машинного обучения в задачах обработки и анализа данных, а также приобретение навыков исследователя данных (data scientist) и разработчика математических моделей, методов и алгоритмов анализа данных. Изучаются основные модели (линейные, метрические, логические), подходы к их обучению и методы обработки данных.
Цель освоения дисциплины
- Знать основные модели и методы машинного обучения и разработки данных
- Уметь адекватно применять указанные модели и методы, а также программные средства, в которых они реализованы
- Иметь навыки (приобрести опыт) анализа реальных данных с помощью изученных методов
Планируемые результаты обучения
- Знает модель решающего дерева и умеет её обучать
- Владеет методами построения композиций моделей
- Владеет методами кластеризации данных
- Знает основные подходы к построению рекомендательных систем
Содержание учебной дисциплины
- Логические методыЛогические методы и их интерпретируемость. Простейший пример: список решений. Пример решающего списка для задачи фильтрации нежелательных сообщений. Деревья решений. Проблема построения оптимального дерева решений. Жадный алгоритм, основные его параметры. Построение деревьев решений. Критерий ветвления. Выбор оптимального разбиения в задачах регрессии. Сложности выбора разбиения в задаче классификации. Примеры критериев: энтропийный (прирост информации), Джини и их модификации. Критерии завершения построения. Регуляризация и стрижка деревьев.
- Композиции алгоритмовПростейший пример: уменьшение дисперсии при усреднении алгоритмов методом бутстреп. Блендинг алгоритмов. Понятие смещения и разброса (иллюстрация на примере линейных методов и решающих деревьев). Уменьшение разброса с помощью усреднения. Случайный лес. Оценка out-of-bag. Градиентный бустинг.
- Кластеризация данныхПростые эвристические подходы. Алгоритм K-Means. Проблема устойчивости результатов и важность грамотной инициализации, алгоритм K-Means++. Выбор числа кластеров. Оценка качества кластеризации.
- Рекомендательные системыПостановка задачи. Коллаборативная фильтрация. Методы на основе матрицы оценок: item-based, user-based. Матричные разложения.
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.4 * Домашнее задание + 0.2 * Контрольная работа + 0.1 * Самостоятельная работа + 0.3 * Экзамен
Список литературы
Рекомендуемая основная литература
- Trevor Hastie, Robert Tibshirani, & Jerome Friedman. New York. (n.d.). Book Reviews 567 The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.45E1D521
Рекомендуемая дополнительная литература
- Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705