2020/2021
Интеллектуальный анализ данных и основы машинного обучения
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Майнор
Кто читает:
Департамент математики
Когда читается:
1, 2 модуль
Преподаватели:
Сироткин Александр Владимирович,
Суворова Алёна Владимировна,
Чуприна Дарья Викторовна
Язык:
русский
Кредиты:
5
Контактные часы:
60
Программа дисциплины
Аннотация
Данный курс посвящен развитию и закреплению навыков, полученных в двух предыдущих курсах майнора. В первой части курса акцент сделан на знакомстве с основными понятиями и алгоритмами машинного обучения, а также соответствующими математическими моделями. Вторая часть курса позволяет более детально погрузиться в одну из выбранных областей. Курс ориентирован на формирование у студентов способности строить собственные модели, ориентированные на конкретные имеющиеся данные, и обзорное знакомство с очень широким спектром методов. В результате освоения курса студенты будут способны самостоятельно разбираться в существующих методах, а так же самостоятельно осваивать методы и модели, не разбиравшиеся подробно в курсах, но необходимые для обработки конкретных специфических данных.
Цель освоения дисциплины
- Целями освоения дисциплины «Интеллектуальный анализ данных и основы машинного обучения» являются освоение основных понятий и методов машинного обучения, развитие навыков программирования для решения задач предсказания на языке R, а также углубление навыков работы с данными в специфических областях, включая клиентскую аналитику и визуализацию.
Планируемые результаты обучения
- знает основные понятия машинного обучения
- преобразовывает описание задачи в формулировку в терминах задачи построения модели регрессии или классификации
- разрабатывает модели на языке R для решения задач предсказания
- оценивает качество моделей машинного обучения
- интерпретирует результаты моделей машинного обучения
- решает задачи кластеризации на языке R
- разрабатывает модели для решения задач клиентской аналитики
- визуализирует результаты анализа специализированных данных
Содержание учебной дисциплины
- Основные понятия машинного обученияПонятие машинного обучения. Задачи обучения с учителем и без учителя. Задачи классификации и регрессии. Статистическая теория принятия решений. Разложение bias- variance-noise. Переобучение. Тестовая и обучающая выборки. Кросс-валидация.
- Задачи классификации и регрессииЛинейная регрессия. Регрессионные деревья. Ошибки модели в задачах регрессии. Метрики качества. Логистическая регрессия. Классификационные деревья. Метрики качества классификации
- Ансамбли моделей и интерпретацияАнсамбли моделей: методы голосования, бустинг, бэггинг, стакинг. Алгоритм случайного леса, градиентный бустинг. Глобальная интерпретация, важность признаков. Алгоритм рекурсивного удаления признаков. Локальная интерпретация (LIME).
- Обучение без учителяПримеры задач обучения без учителя. Классификация, метод k-средних, иерархическая кластеризация. Задачи отбора признаков.
- Интеллектуальный анализ данныхТрек 1: клиентская аналитики, введение в SQL, прогнозирование оттока клиентов, дашборды Трек 2: алгоритмы машинного обучения, введение в Python, соревнования по машинному обучению Трек 3: анализ текстов, структурные модели, визуализация сетей и карт
Элементы контроля
- Контрольная работа
- Упражнения
- Домашнее задание
- ПроектФорма итогового программного проекта отличается для разных треков. Данные для задания предоставляются преподавателем. Работа выполняется индивидуально. Проект должен содержать все необходимые пояснения и интерпретации. Трек 1. Проект предполагает построение дэшборда и отчета с пояснениями и обоснованием выбора элементов дэшборда для задачи клиентской аналитики и предсказания оттока клиентов. Итоговый отчет содержит следующие разделы: 1) формулировка решаемой задачи, 2) описание методов решения поставленной задачи, 3) полученные результаты и выводы, 4) обоснование включенных в дэшборд элементов (как они помогают представить полученные результаты). Трек 2. Проект предполагает построение предсказательной модели в формате соревнования по машинному обучению и составление отчета с пояснениями по построенной модели. Итоговый отчет содержит следующие разделы: 1) предварительное исследование данных, 2) описание используемых для предсказания признаков и способы их формирования, 3) как минимум две предсказательные модели и обоснование выбора итоговой модели, 4) описание результатов в соревновании. Трек 3. Проект предполагает составление аналитического отчета по выбранной тематике (в контексте сетей и текстов) и оформление результатов работы в формате блог-поста с визуализациями. Итоговый отчет содержит следующие разделы: 1) описание поставленной задачи, 2) предварительное исследование данных, 3) описание использованных методов, 4) описание полученных результатов.
- Контрольная работа
- Упражнения
- Домашнее задание
- ПроектФорма итогового программного проекта отличается для разных треков. Данные для задания предоставляются преподавателем. Работа выполняется индивидуально. Проект должен содержать все необходимые пояснения и интерпретации. Трек 1. Проект предполагает построение дэшборда и отчета с пояснениями и обоснованием выбора элементов дэшборда для задачи клиентской аналитики и предсказания оттока клиентов. Итоговый отчет содержит следующие разделы: 1) формулировка решаемой задачи, 2) описание методов решения поставленной задачи, 3) полученные результаты и выводы, 4) обоснование включенных в дэшборд элементов (как они помогают представить полученные результаты). Трек 2. Проект предполагает построение предсказательной модели в формате соревнования по машинному обучению и составление отчета с пояснениями по построенной модели. Итоговый отчет содержит следующие разделы: 1) предварительное исследование данных, 2) описание используемых для предсказания признаков и способы их формирования, 3) как минимум две предсказательные модели и обоснование выбора итоговой модели, 4) описание результатов в соревновании. Трек 3. Проект предполагает составление аналитического отчета по выбранной тематике (в контексте сетей и текстов) и оформление результатов работы в формате блог-поста с визуализациями. Итоговый отчет содержит следующие разделы: 1) описание поставленной задачи, 2) предварительное исследование данных, 3) описание использованных методов, 4) описание полученных результатов.
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)0.2 * Домашнее задание + 0.25 * Контрольная работа + 0.4 * Проект + 0.15 * Упражнения
Список литературы
Рекомендуемая основная литература
- James, G. et al. An introduction to statistical learning. – Springer, 2013. – 426 pp.
- Под ред. Мхитаряна В.С. - АНАЛИЗ ДАННЫХ. Учебник для академического бакалавриата - М.:Издательство Юрайт - 2019 - 490с. - ISBN: 978-5-534-00616-2 - Текст электронный // ЭБС ЮРАЙТ - URL: https://urait.ru/book/analiz-dannyh-432178
Рекомендуемая дополнительная литература
- Siegel, E. Predictive analytics: The power to predict who will click, buy, lie, or die. – John Wiley & Sons, 2016. – 338 pp.
- Zhao, Y., & Cen, Y. (2013). Data Mining Applications with R. Amsterdam: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=543675