Бакалавриат
2021/2022



Прикладная статистика в машинном обучении
Статус:
Курс по выбору (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
3-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Демешев Борис Борисович,
Касьянова Ксения Алексеевна,
Омелюсик Владимир Степанович,
Рябенко Евгений Алексеевич
Язык:
русский
Кредиты:
5
Контактные часы:
60
Программа дисциплины
Аннотация
Для тех, кто учил математическую статистику на втором курсе, остаётся не вполне ясным, как её применять на практике. Действительно, с большим объёмом фундаментальных и важных математических фактов прикладной аспект статистики остаётся за кадром. Освоивший математическую статистику умеет выписать метод максимального правдоподобия для выборки независимых наблюдений, применить несколько базовых математических тестов для проверки одной гипотезы по заданию и использовать метод наименьших квадратов для того, чтобы подогнать линейную модель под данные. Всё же, можно ли использовать метод максимального правдоподобия в случае зависимых наблюдений? Как соотнести исследовательский вопрос с набором критериев и дать более сложный ответ на него с использованием статистики? Наконец, так ли верны предположения линейной регрессии (теорема Гаусса-Маркова) на практике? А если нет, то можно ли за них побороться?Мы в своём курсе предлагаем посмотреть, как уже известные идеи можно применить в различных практических ситуациях. Мы начинаем с более детального исследования метода максимального правдоподобия в контексте (пока ещё) непривычных практических ситуаций, как, например, оценка марковских цепей и других случайных процессов, и мы приводим EM-алгоритм, который можно рассматривать как естественное продолжение метода максимального правдодобия. Далее мы переходим к изучению линейной регрессии и борьбе за её предположения, которые нам необходимы, если мы хотим получить интерпретируемую модель, которая не обязательно хорошо предсказывает, но способна многое объяснить про данные. Последний третий блок посвящён прикладной статистике, где мы представляем универсальный набор инструментов аналитика и обсуждаем АБ-тестирование с практической стороны, правильно встраивая статистику в общую схему АБ-тестирования.Если вы хорошо знаете математическую часть статистики, но задавались вопросом, что можно из неё получить в практическом плане, или вы не очень помните, но очень хотите узнать, почему и зачем её стоит учить, то заходите на наш курс и мы постараемся вам дать хороший ответ, который, возможно, позже наведёт вас на многие необычные практические идеи.
Цель освоения дисциплины
- Уметь применять метод максимального правдоподобия для выборки независимых наблюдений
- Уметь применять метод максимального правдоподобия для выборки зависимых наблюдений при определённой структуре зависимостей в вероятностной модели
- Знать и уметь использовать EM-алгоритм для построения итеративных схем оценивания в моделях с латентными переменными
- Уметь применять классические параметрические критерии для проверки гипотез о равенстве средних и дисперсий
- Уметь применять непараметрические критерии и критерии согласия для проверки гипотез о распределении
Содержание учебной дисциплины
- Энтропия и дивергенция Кульбака-Лейблера, AIC
- Метод максимального правдоподобия
- Тесты LR, LM, W
- EM-алгоритм
- Бутстрэп
- Нормальное распределение, t-распределение, хи-квадрат распределение, F-распределение. F-тест.
- Гетероскедастичность и бутстрэп
- Нестандартные регрессии
- Непараметрическое оценивание (таблицы сопряжённости, категориальные переменные)
- Байесовский подход. Байесовский фактор
- Алгоритм Метрополиса-Гастингса
- Variational Inference
Элементы контроля
- Контрольная работа (мидтерм)
- Домашняя работа 1
- Домашняя работа 2
- Экзамен
- КвизыПроверочные работы на семинаре.
Промежуточная аттестация
- 2021/2022 учебный год 2 модуль0.12 * Домашняя работа 1 + 0.12 * Домашняя работа 2 + 0.12 * Квизы + 0.24 * Контрольная работа (мидтерм) + 0.4 * Экзамен