Бакалавриат
2024/2025
Прикладная статистика в машинном обучении
Статус:
Курс обязательный (Компьютерные науки и анализ данных)
Направление:
01.03.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
3-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Михайлов Михаил Дмитриевич
Язык:
русский
Кредиты:
5
Программа дисциплины
Аннотация
Для тех, кто учил математическую статистику на втором курсе, остаётся не вполне ясным, как её применять на практике. Действительно, с большим объёмом фундаментальных и важных математических фактов прикладной аспект статистики остаётся за кадром. Освоивший математическую статистику умеет выписать метод максимального правдоподобия для выборки независимых наблюдений, применить несколько базовых математических тестов для проверки одной гипотезы по заданию и использовать метод наименьших квадратов для того, чтобы подогнать линейную модель под данные. Всё же, можно ли использовать метод максимального правдоподобия в случае зависимых наблюдений? Как соотнести исследовательский вопрос с набором критериев и дать более сложный ответ на него с использованием статистики? Наконец, так ли верны предположения линейной регрессии (теорема Гаусса-Маркова) на практике? А если нет, то можно ли за них побороться?Мы в своём курсе предлагаем посмотреть, как уже известные идеи можно применить в различных практических ситуациях. Мы начинаем с более детального исследования метода максимального правдоподобия в контексте (пока ещё) непривычных практических ситуаций, как, например, оценка марковских цепей и других случайных процессов, и мы приводим EM-алгоритм, который можно рассматривать как естественное продолжение метода максимального правдодобия. Далее мы переходим к изучению линейной регрессии и борьбе за её предположения, которые нам необходимы, если мы хотим получить интерпретируемую модель, которая не обязательно хорошо предсказывает, но способна многое объяснить про данные. Последний третий блок посвящён прикладной статистике, где мы представляем универсальный набор инструментов аналитика и обсуждаем АБ-тестирование с практической стороны, правильно встраивая статистику в общую схему АБ-тестирования.Если вы хорошо знаете математическую часть статистики, но задавались вопросом, что можно из неё получить в практическом плане, или вы не очень помните, но очень хотите узнать, почему и зачем её стоит учить, то заходите на наш курс и мы постараемся вам дать хороший ответ, который, возможно, позже наведёт вас на многие необычные практические идеи.
Цель освоения дисциплины
- Уметь применять метод максимального правдоподобия для выборки независимых наблюдений
- Уметь применять метод максимального правдоподобия для выборки зависимых наблюдений при определённой структуре зависимостей в вероятностной модели
- Знать и уметь использовать EM-алгоритм для построения итеративных схем оценивания в моделях с латентными переменными
- Уметь применять классические параметрические критерии для проверки гипотез о равенстве средних и дисперсий
- Уметь применять непараметрические критерии и критерии согласия для проверки гипотез о распределении
Планируемые результаты обучения
- Уметь использовать непараметрические подходы (jackknife, bootstrap) для построения точечных и интервальных оценок
- Уметь пользоваться инструментарием статистических критериев в рамках АБ-тестирования
- Уметь корректировать методы оценивания в линейной регрессии, чтобы добиваться выполнения предположений
- Знать предположения классической модели линейной регрессии и уметь их проверять с помощью статистических критериев
Содержание учебной дисциплины
- Метод максимального правдоподобия
- Теория информации
- EM-алгоритм: ещё ММП
- EM-алгоритм: оценка фильтров
- Доверительные интервалы и проверка гипотез
- Эконометрика: Гаусс-Марков
- Эконометрика: предположения
- Эконометрика: борьба за предположения
- В сторону от линейной модели
- Статистика: ранговые критерии
- Статистика: АБ-тестирование
- Статистика: множественное тестирование
- Кроме классической статистики
Промежуточная аттестация
- 2024/2025 2nd module0.7*Накоп + 0.3*максимум(Экз, минимум(7,Накоп)) 0.7*Накоп = 0.4*среднее(ДЗ1,ДЗ2,ДЗ3) + 0.3*КР
Список литературы
Рекомендуемая основная литература
- Kim, J., Chen, Y.-C., Balakrishnan, S., Rinaldo, A., & Wasserman, L. (2016). Statistical Inference for Cluster Trees.
- Чжун, К. Л. Элементарный курс теории вероятностей. Стохастические процессы и финансовая математика : учебник / К. Л. Чжун, Ф. Аит-Сахлиа , перевод с английского М. Б. Лагутина , художник С. Инфантэ. — 4-е изд. — Москва : Лаборатория знаний, 2021. — 458 с. — ISBN 978-5-93208-572-1. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/176459 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Shay Cohen. (2019). Bayesian Analysis in Natural Language Processing : Second Edition. San Rafael: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2102157
- Кибзун, А. И. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами : справочник / А. И. Кибзун, Е. Р. Горяинова, А. В. Наумов. — 3-е изд. — Москва : ФИЗМАТЛИТ, 2007. — 232 с. — ISBN 978-5-9221-0836-2. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/59479 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Лагутин, М. Б. Наглядная математическая статистика : учебное пособие / М. Б. Лагутин. — 7-е изд. — Москва : Лаборатория знаний, 2019. — 475 с. — ISBN 978-5-00101-642-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/116104 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.