Введение в анализ данных

2020/2021

Лучший по критерию «Полезность курса для Вашей будущей карьеры»

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»

Лучший по критерию «Новизна полученных знаний»

Статус: Майнор

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 3, 4 модуль

Преподаватели: Кантонистова Елена Олеговна, Карпова Анастасия Евгеньевна, Косарев Илья Максимович, Омелюсик Владимир Степанович, Соколов Евгений Андреевич, Таболов Тамерлан Казбулатович, Филатов Артём Андреевич, Чиркова Надежда Александровна

Язык: русский

Кредиты: 5

Контактные часы: 54

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

Целями освоения дисциплины «Введение в анализ данных» являются овладение студентами моделями и методами интеллектуального анализа данных и машинного обучения в задачах обработки и анализа данных, а также приобретение навыков исследователя данных (data scientist) и разработчика математических моделей, методов и алгоритмов анализа данных. Изучаются основные модели (линейные, метрические, логические), подходы к их обучению и методы обработки данных.

Цель освоения дисциплины

Знать основные модели и методы машинного обучения и разработки данных
Уметь адекватно применять указанные модели и методы, а также программные средства, в которых они реализованы
Иметь навыки (приобрести опыт) анализа реальных данных с помощью изученных методов

Планируемые результаты обучения

Знает основные постановки задач и типы данных в машинном обучении
Владеет основами математики для анализа данных
Знает модель k ближайших соседей и умеет её обучать
Знает линейные модели и умеет их обучать
Владеет основными подходами к оценке качества в задачах классификации и регрессии
Знает модель решающего дерева и умеет её обучать
Владеет методами построения композиций моделей
Владеет методами кластеризации данных
Знает основные подходы к построению рекомендательных систем

Содержание учебной дисциплины

Введение, основные понятия анализа данных
Введение в машинное обучение и анализ данных. Анализ данных в различных прикладных областях. Основные определения. Этапы анализа данных. Постановки задач машинного обучения. Примеры прикладных задач и их типы: классификация, регрессия, ранжирование, кластеризация, поиск структуры в данных.
Математические объекты и методы в анализе данных
Линейная алгебра и анализ данных. Линейные пространства, их примеры из машинного обучения (признаки в кредитом скоринге, векторные представления текстов). Коллинеарность и линейная независимость. Скалярное произведение, косинус угла, примеры их применения. Векторы и матрицы, операции над ними. Матричное умножение. Системы линейных уравнений. Обратная матрица. Математический анализ и анализ данных (на примере парной линейной регрессии и МНК). Производная и градиент, их свойства и интерпретации. Типы функций: непрерывные, разрывные, гладкие. Градиентный спуск. Выпуклые функции и их особое место в оптимизации. Теория вероятностей и анализ данных. Случайные величины. Дискретные и непрерывные распределения, их свойства. Примеры распределений и их важность в анализе данных: биномиальное, пуассоновское, нормальное, экспоненциальное. Характеристики распределений: среднее, медиана, дисперсия, квантили. Пример их использования при генерации признаков. Центральная предельная теорема. Математическая статистика и анализ данных. Оценивание параметров распределений. Метод максимального правдоподобия.
Метрические методы
Гипотеза компактности. Функция расстояния между объектами. Метрические алгоритмы классификации, их модификация с весами. Метрические алгоритмы регрессии.
Линейная регрессия и классификация
Линейная регрессия. Квадратичная функция потерь и предположение о нормальном распределении шума. Метод наименьших квадратов: аналитическое решение и оптимизационный подход. Стохастический градиентный спуск. Тонкости градиентного спуска: размер шага, начальное приближение, нормировка признаков. Проблема переобучения. Регуляризация. Линейная классификация. Аппроксимация дискретной функции потерь. Отступ. Примеры аппроксимаций, их особенности. Градиентный спуск, регуляризация. Классификация и оценки принадлежности классам. Логистическая регрессия: откуда берется такая функция потерь и почему она позволяет предсказывать вероятности. Максимизация зазора как пример регуляризации и устранения неоднозначности решения.
Оценивание качества алгоритмов
Регрессия: квадратичные и абсолютные потери, абсолютные логарифмические отклонения. Примеры использования. Классификация: доля верных ответов, ее недостатки. Точность и полнота, их объединение: арифметическое среднее, минимум, гармоническое среднее (F-мера). Оценки принадлежности классам: площади под кривыми. AUC-ROC, AUC-PRC, их свойства. Оценивание качества алгоритмов. Отложенная выборка, ее недостатки. Оценка полного скользящего контроля. Кросс-валидация. Leave-one-out. Практические особенности кросс-валидации. Стратификация. Потенциальные проблемы с разбиением зависимой или динамической выборки.
Логические методы
Логические методы и их интерпретируемость. Простейший пример: список решений. Пример решающего списка для задачи фильтрации нежелательных сообщений. Деревья решений. Проблема построения оптимального дерева решений. Жадный алгоритм, основные его параметры. Построение деревьев решений. Критерий ветвления. Выбор оптимального разбиения в задачах регрессии. Сложности выбора разбиения в задаче классификации. Примеры критериев: энтропийный (прирост информации), Джини и их модификации. Критерии завершения построения. Регуляризация и стрижка деревьев.
Композиции алгоритмов
Простейший пример: уменьшение дисперсии при усреднении алгоритмов методом бутстреп. Блендинг алгоритмов. Понятие смещения и разброса (иллюстрация на примере линейных методов и решающих деревьев). Уменьшение разброса с помощью усреднения. Случайный лес. Оценка out-of-bag. Градиентный бустинг.
Кластеризация данных
Простые эвристические подходы. Алгоритм K-Means. Проблема устойчивости результатов и важность грамотной инициализации, алгоритм K-Means++. Выбор числа кластеров. Оценка качества кластеризации.
Рекомендательные системы
Постановка задачи. Коллаборативная фильтрация. Методы на основе матрицы оценок: item-based, user-based. Матричные разложения.

Элементы контроля

Самостоятельная работа
Домашнее задание
Контрольная работа
Экзамен
Самостоятельная работа
Домашнее задание
Контрольная работа
Экзамен

Промежуточная аттестация

Промежуточная аттестация (4 модуль)
0.4 * Домашнее задание + 0.2 * Контрольная работа + 0.1 * Самостоятельная работа + 0.3 * Экзамен

Программа дисциплины