Бакалавриат
2023/2024
Математическая статистика и анализ данных
Статус:
Курс обязательный (Совместный бакалавриат НИУ ВШЭ и ЦПМ)
Направление:
01.03.01. Математика
Кто читает:
Факультет математики
Где читается:
Факультет математики
Когда читается:
3-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Кириллов Иван Владимирович,
Летуновский Алексей Александрович,
Пархоменко Денис Владимирович
Язык:
русский
Кредиты:
5
Контактные часы:
84
Программа дисциплины
Аннотация
Курс знакомит студентов с основами математической статистики и с методами анализа данных. Он служит подготовкой к независимому экзамену по анализу данных. Курс сочетает в себе теоретический материал (математическое описание задач статистики: оценивание параметров, проверка гипотез и др.) и практические задачи, в том числе связанные с работой с реальными данными. В курсе рассматриваются математические аспекты современного анализа данных с использованием машинного обучения, в особенности искуственных нейросетей. Предполагается знакомство слушателей с языком программирования Python и программными комплексами для решений на основе глубокого обучения.
Цель освоения дисциплины
- Студенты будут ознакомлены с современными методами анализа данных, в т.ч. анализа данных с использованием "глубокого обучения". Будет дан обзор современных методов на пересечении дисциплин: математической статистики, топологии и математического анализа. На практических занятиях студенты освоят библиотеки и фреймворки для анализа данных на базе языка Python.
Планируемые результаты обучения
- Знать основные задачи в области современных исследований в машинном обучении (классификация, регрессия, сегментация, прогнозирование и т.д.).
- Понимать принцип работы сверточной нейросети. Знать алгоритм обратного распространения.
- Демонстрирует знание, как обучать нейросети на процессорах и видеокартах
- Знать основные определения, понятия и базовые теоремы теории вероятностей
- Понимать что такое регрессия, классификация, знать какие алгоритмы для решения этих задач существуют.
- Знает основные понятия и постановки задач машинного обучения
- Знать основные термины, обозначения, понятия, постановку задач оптимизации.
- Уметь строить архитектуры сверточной нейросети для решения задач регрессии
- Уметь строить полносвязные нейросети для решения задач классификации регрессии
- Решает задачи машинного обучения (регрессия, классификация или кластеризация данных) на практике.
- Владеет основным тезаурусом в сфере генеративного ИИ, оперирует терминами, определяет смысл ведущих понятий (естественный и искусственный интеллект, нейросети, генеративный искусственный интеллект, цифровой капитализм и т. д.).
- Слушатели освоят функциональный подход к распутыванию нейросетей. Ознакомятся с основвами генерации визуальных образов
- Освоить теоретически и практические основы теории статистического оценивания, проверки статистических гипотез. Освоить основные подходы к решению статистических задач: оценка точечная, интервальная, проверка гипотез, хорошо оперировать статистическими инструментами, уметь искать ошибки 1 и 2 рода. Решить несколько практических задач с использование статистических пакетов на языке Python.
- Уметь формулировать задачу классификации, программировать ее на языке Python с помощью статистических библиотек.
- Ознакомятся с низкоразмернымми представлениями многомерных данных, гипотезой о многообразии и ее приложению к реальной математической задаче классификации. Освоят топологический взгляд на задачи анализа данных и машинного обучения
- Ознакомится с автоматным представлением нейросетей (конечные автоматы) и основными понятиями генеративного ИИ. Реализует практические задания по генерации образов на языке Python с использованием фреймворков для программирования нейросетей.
Содержание учебной дисциплины
- Введение в анализ данных. Основные обозначения и понятия.
- Введение в математическую статистику
- Вероятностная постановка задачи классификации и регрессии
- Основы нейросетевых алгоритмов анализа данных
- Топологический взгляд на нейросетевые методы анализа данных
- Основы генеративного ИИ. Автоматный взгляд на нейросети
- Генерация визуальных образов и распутывание.
Промежуточная аттестация
- 2023/2024 учебный год 4 модуль0.167 * Домашняя контрольная работа + 0.166 * Домашняя контрольная работа + 0.167 * Коллоквиум письменный + 0.5 * Экзамен
Список литературы
Рекомендуемая основная литература
- Neural Networks and Deep Learning - CCBY4_068 - Michael Nielson - 2022 - Open Educational Resources: libretexts.org - https://ibooks.ru/bookshelf/390854 - 390854 - iBOOKS
- Вероятность и статистика в примерах и задачах. Т.1: Основные понятия теории вероятностей и математической статистики, Кельберт, М. Я., 2018
- Гельман, Э. Регрессия: теория и практика / Э. Гельман, Д. Хилл, А. Вехтари , перевод с английского В. С. Яценкова. — Москва : ДМК Пресс, 2022. — 748 с. — ISBN 978-5-97060-987-3. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/241220 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Дмитриев Егор Андреевич. (2017). Линейная регрессия. Students’ Scientific Research and Development ; № 2(4) ; 123-124 ; Научные Исследования и Разработки Студентов.
- Нейронные сети. Полный курс : пер. с англ., Хайкин, С., 2018
Рекомендуемая дополнительная литература
- Python для сложных задач: наука о данных и машинное обучение. - 978-5-4461-0914-2 - Плас Дж. Вандер - 2021 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/376830 - 376830 - iBOOKS