Бакалавриат
2020/2021
Анализ и разработка данных
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Когда читается:
3-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Гречихин Иван Сергеевич
Язык:
русский
Кредиты:
4
Контактные часы:
60
Программа дисциплины
Аннотация
Настоящая дисциплина относится к профессиональному циклу дисциплин, обеспечивающих подготовку бакалавра. Изучение данной дисциплины базируется на знании, полученных при освоении дисциплин: линейная алгебра и геометрия, математический анализ, дискретная ма-тематика, математическая статистика, программировании. Полученные знания будут ис-пользованы при освоении дисциплин профессионального цикла, подготовке курсовых и вы-пускных квалификационных работ.
Цель освоения дисциплины
- Целью освоения дисциплины «Анализ и разработка данных» является получение высшего профессионально профилированного (на уровне бакалавра) образования, позволяющего выпускнику успешно работать в избранной сфере деятельности, обладать универсальными и предметно-специализированными компетенциями, способствующими его социальной мо-бильности и устойчивости на рынке труда.
Планируемые результаты обучения
- Понимание основ работы с данными
- Изучение техники сокращения размерности
- Знание задачи и алгоритмов кластеризации
- Ознакомление с задачами регресии и способами их решения
- Ознакомление с задачей классификации
- Знание простейших алгоритмов классификации
- Умение готовить данные для обучения и поддерживать процесс обучения
- Знание алгоритмов классификации на основе ансамблей простейших алгоритмов
Содержание учебной дисциплины
- Введение в анализ данных. Описательные статистики.Данная тема посвящена изучению первых методов анализа данных, связанных с первым ознакомлением с данными: использование описательных статистик для описания признаков, работа с выбросами и пропущенными значениями, стандартизация и нормализация данных.
- Анализ главных компонент для выявления скрытых факторов и сокращения размерностиВ этой теме разбирается техника анализа главных компонент, которая выявляет как скрытые связи и паттерны в данных, так и позволяет сократить размерность данных без большой потери информации
- КластеризацияВ этой теме рассматривается задача кластеризации и различные алгоритмы её решения
- Регрессия. Алгоритмы регрессии.В этой теме разбирается задача регрессии - как предсказания вещественной целевой переменной. Рассматриваются стандартные алгоритмы линейной регрессии, включая ridge и lasso регуляризации.
- Задача классификации. Простейшие алгоритмы классификации.В этой теме рассматриваются самые простые алгоритмы для решения задачи классификации: K ближайших соседей (KNN), наивный байес, логистическая регрессия, дерево решений
- Алгоритмы классификации - ансамблиВ этой теме рассматриваются алгоритмы, представляющие из себя сумму-набор простейших классификаторов: Случайный лес, Boosting, Bagging.
Элементы контроля
- лабораторные работы5 лабораторных работ
- экзамен
- лабораторные работы5 лабораторных работ
- экзамен
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)0.5 * лабораторные работы + 0.5 * экзамен
Список литературы
Рекомендуемая основная литература
- Статистические методы анализа данных : учебник / Л.И. Ниворожкина, С.В. Арженовский, А.А. Рудяга [и др.] ; под общ. ред. д-ра экон. наук, проф. Л.И. Ниворожкиной. — М. : РИОР : ИНФРА-М, 2016. — 333 с. — (Высшее образование: Бакалавриат). — www.dx.doi.org/10.12737/21064. - Режим доступа: http://znanium.com/catalog/product/556760
- Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход / Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов и др. - М.: НИЦ ИНФРА-М, 2015. - 890 с.: 60x90 1/16 ISBN 978-5-16-103267-1 (online) - Режим доступа: http://znanium.com/catalog/product/515227
Рекомендуемая дополнительная литература
- Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705