Магистратура
2021/2022
Современные методы анализа данных
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Машинное обучение и анализ данных)
Направление:
01.04.02. Прикладная математика и информатика
Кто читает:
Департамент информатики
Когда читается:
1-й курс, 1, 2, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Зенкова Наталья Валентиновна,
Картышева Елена Николаевна,
Кузнецов Антон Михайлович,
Омельченко Александр Владимирович
Прогр. обучения:
Машинное обучение и анализ данных
Язык:
русский
Кредиты:
6
Контактные часы:
106
Программа дисциплины
Аннотация
Дисциплина направлена на формирование представлений об основных методах машинного обучения, соответствующих алгоритмах вывода, вероятностных основах машинного обучения и соответствующих моделях. Изучение дисциплины будет способствовать развитию вероятностной интуиции и разработке моделей и методов машинного обучения, а также их практическому применению.
Цель освоения дисциплины
- Формирование у студентов представлений об основных аппаратах машинного обучения, эффективных алгоритмах обучения и применении обученных моделей.
Планируемые результаты обучения
- Владеет понятием статистического обучения в бизнесе, социологии, экономике. Знает возможности применения статистического обучения в информационных системах. Знает классификационные и регрессионные деревья, линейную регрессию, квадратичную функцию потерь и предположение о нормальном распределении шума.
- Знает главные методы, техники, темы и прикладные возможности. Владеет понятием анализа данных в различных прикладных областях. Знает этапы анализа данных. Знает инструменты R, RStudio, Python (пакеты scipy и numpy, сборка Anaconda, Pandas, Scikit-learn и др.).
- Владеет понятиями визуализации и агрегации данных: фильтрация, объединение, сортировка данных. Работает с датами и текстовыми данными. Оценивает параметры распределений. Знает метод максимального правдоподобия.
- Владеет понятиями: объединение моделей, усреднение, бутстрап, бэггинг, бустинг: AdaBoost. Знает алгоритм Random Forest.
- Знает модели, допускающие интерпретацию. Владеет понятием интерпретации моделей “черного ящика”. Владеет понятием глобальной интерпретации (знает важность признаков, ICE графики).
- Знает проблему выявления причинно-следственных связей. Владеет понятиями случайных экспериментов, выборки и смещения, мэтчинга. Знает оценки ATE, ATC.
Содержание учебной дисциплины
- Введение, основные понятия анализа данных
- Выводы на основе данных: проверка гипотез и статистические тесты
- Предсказания на основе данных. Классификация и регрессия
- Ансамбли моделей
- Интерпретация моделей
- Причинно-следственные связи
Элементы контроля
- Домашнее задание №1
- Экзамен
- Домашнее задание №2
- ЭкзаменЭкзамен проводится на платформе Zoom. Экзамен проводится в устной форме (опрос по материалам курса). По просьбе преподавателя студент должен быть готов выполнить некоторые задания в письменном виде, после чего сфотографировать и выслать на почту преподавателю. К экзамену необходимо подключиться согласно расписанию, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка платформы Zoom. Для участия в экзамене студент обязан: выбрать себе имя в Zoom совпадающее с его именем и фамилией, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещается выключать камеру. Ипользование конспектов или других справочных материалов допускается только с разрешения преподавателя. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи возможность продолжения студентом участие в экзамене определяется преподавателем. Процедура пересдачи подразумевает использование усложненных заданий.
Промежуточная аттестация
- 2021/2022 учебный год 2 модуль0.5 * Домашнее задание №1 + 0.5 * Экзамен
- 2021/2022 учебный год 4 модуль0.5 * Экзамен + 0.5 * Домашнее задание №1
Список литературы
Рекомендуемая основная литература
- James, G. et al. An introduction to statistical learning. – Springer, 2013. – 426 pp.
- Вьюгин, В. В. Математические основы машинного обучения и прогнозирования : учебное пособие / В. В. Вьюгин. — Москва : МЦНМО, 2014. — 304 с. — ISBN 978-5-4439-2014-6. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/56397 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Ahmed, S. E. (2017). Big and Complex Data Analysis : Methodologies and Applications. Cham, Switzerland: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1383914