Введение в анализ данных-2

Бакалавриат 2020/2021

Лучший по критерию «Полезность курса для Вашей будущей карьеры»

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»

Лучший по критерию «Новизна полученных знаний»

Статус: Курс по выбору (Бизнес-информатика)

Направление: 38.03.05. Бизнес-информатика

Кто читает: Департамент больших данных и информационного поиска

Где читается: Высшая школа бизнеса

Когда читается: 3-й курс, 4 модуль

Формат изучения: без онлайн-курса

Преподаватели: Косарев Илья Максимович, Семенкин Антон Александрович, Соколов Евгений Андреевич

Язык: русский

Кредиты: 3

Контактные часы: 36

Дополнительные материалы в LMS Задать вопрос

Аннотация

Целями освоения дисциплины «Введение в анализ данных» являются овладение студентами моделями и методами интеллектуального анализа данных и машинного обучения в задачах обработки и анализа данных, а также приобретение навыков исследователя данных (data scientist) и разработчика математических моделей, методов и алгоритмов анализа данных. Изучаются основные модели (линейные, метрические, логические), подходы к их обучению и методы обработки данных.

Цель освоения дисциплины

Знать основные модели и методы машинного обучения и разработки данных
Уметь адекватно применять указанные модели и методы, а также программные средства, в которых они реализованы
Иметь навыки (приобрести опыт) анализа реальных данных с помощью изученных методов

Планируемые результаты обучения

Знает модель решающего дерева и умеет её обучать
Владеет методами построения композиций моделей
Владеет методами кластеризации данных
Знает основные подходы к построению рекомендательных систем

Содержание учебной дисциплины

Логические методы
Логические методы и их интерпретируемость. Простейший пример: список решений. Пример решающего списка для задачи фильтрации нежелательных сообщений. Деревья решений. Проблема построения оптимального дерева решений. Жадный алгоритм, основные его параметры. Построение деревьев решений. Критерий ветвления. Выбор оптимального разбиения в задачах регрессии. Сложности выбора разбиения в задаче классификации. Примеры критериев: энтропийный (прирост информации), Джини и их модификации. Критерии завершения построения. Регуляризация и стрижка деревьев.
Композиции алгоритмов
Простейший пример: уменьшение дисперсии при усреднении алгоритмов методом бутстреп. Блендинг алгоритмов. Понятие смещения и разброса (иллюстрация на примере линейных методов и решающих деревьев). Уменьшение разброса с помощью усреднения. Случайный лес. Оценка out-of-bag. Градиентный бустинг.
Кластеризация данных
Простые эвристические подходы. Алгоритм K-Means. Проблема устойчивости результатов и важность грамотной инициализации, алгоритм K-Means++. Выбор числа кластеров. Оценка качества кластеризации.
Рекомендательные системы
Постановка задачи. Коллаборативная фильтрация. Методы на основе матрицы оценок: item-based, user-based. Матричные разложения.

Элементы контроля

Самостоятельная работа
Домашнее задание
Контрольная работа
Экзамен

Промежуточная аттестация

Промежуточная аттестация (4 модуль)
0.4 * Домашнее задание + 0.2 * Контрольная работа + 0.1 * Самостоятельная работа + 0.3 * Экзамен

Программа дисциплины