2022/2023
Предиктивные модели и прикладная аналитика
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Майнор
Кто читает:
Департамент информатики
Когда читается:
1, 2 модуль
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Захарова Виктория Владиславовна,
Попов Александр Денисович,
Сироткин Александр Владимирович,
Суворова Алёна Владимировна,
Чуприна Дарья Викторовна
Язык:
русский
Кредиты:
5
Контактные часы:
56
Программа дисциплины
Аннотация
В этом курсе студенты закрепят полученные ранее навыки и тесно познакомятся с ядром прикладной аналитики данных —— моделями машинного обучения, а также технологиями, необходимыми для решения прикладных задач. Курс разделен на два трека, выбираемые в зависимости от предпочтений, сформированных в течение первого года. Первый трек сфокусирован на задачах прикладной предиктивной аналитики (клиентской, UX, социальной и др.), а также основах баз данных и языка SQL. Второй трек ориентирован на более глубокое знакомство с методами продвинутого анализа сетей и текстов, которые применяются в цифровых социальных и гуманитарных науках. При этом в обоих треках студенты познакомятся с ключевыми понятиями и алгоритмами машинного обучения, получат опыт построения собственных моделей для решения конкретных задач в своей области.
Цель освоения дисциплины
- Целями освоения дисциплины являются освоение основных понятий и методов машинного обучения, развитие навыков программирования для решения задач предсказания на языке R, а также углубление навыков работы с данными в специфических областях, включая клиентскую аналитику и визуализацию.
Планируемые результаты обучения
- визуализирует результаты анализа специализированных данных
- знает основные понятия машинного обучения
- интерпретирует результаты моделей машинного обучения
- оценивает качество моделей машинного обучения
- преобразовывает описание задачи в формулировку в терминах задачи построения модели регрессии или классификации
- разрабатывает модели для решения задач клиентской аналитики
- разрабатывает модели на языке R для решения задач предсказания
- решает задачи кластеризации на языке R
Содержание учебной дисциплины
- Основные понятия машинного обучения
- Задачи классификации и регрессии
- Ансамбли моделей и интерпретация
- Обучение без учителя
- Интеллектуальный анализ данных
Элементы контроля
- Упражнения: онлайн-курсДля закрепления навыков по работе с инструментарием студентам предлагается выполнить упражнения из онлайн-курса. Прохождение онлайн-курса является обязательной составляющей курса. Выбирая из предложенных преподавателями курсов или обсуждая с преподавателями найденные самостоятельно, студент сам выбирает уровень сложности курса. Если длительность курса превышает количество недель, имеющихся для его прохождения, по согласованию с преподавателем его отдельные модули могут быть пропущены студентом.
- Упражнения: семинарыДля закрепления навыков по работе с инструментарием студентам предлагается выполнить упражнения по работе на языке R. Источник упражнений определяется преподавателем, публикуется на платформе Stepik или в LMS
- ПроектФорма итогового программного проекта отличается для разных треков. Данные для задания предоставляются преподавателем. Работа выполняется индивидуально. Проект должен содержать все необходимые пояснения и интерпретации. Трек 1. Проект предполагает построение дэшборда и отчета с пояснениями и обоснованием выбора элементов дэшборда для задачи клиентской аналитики и предсказания оттока клиентов. Итоговый отчет содержит следующие разделы: 1) формулировка решаемой задачи, 2) описание методов решения поставленной задачи, 3) полученные результаты и выводы, 4) обоснование включенных в дэшборд элементов (как они помогают представить полученные результаты). Трек 2. Проект предполагает построение предсказательной модели в формате соревнования по машинному обучению и составление отчета с пояснениями по построенной модели. Итоговый отчет содержит следующие разделы: 1) предварительное исследование данных, 2) описание используемых для предсказания признаков и способы их формирования, 3) как минимум две предсказательные модели и обоснование выбора итоговой модели, 4) описание результатов в соревновании. Трек 3. Проект предполагает составление аналитического отчета по выбранной тематике (в контексте сетей и текстов) и оформление результатов работы в формате блог-поста с визуализациями. Итоговый отчет содержит следующие разделы: 1) описание поставленной задачи, 2) предварительное исследование данных, 3) описание использованных методов, 4) описание полученных результатов.
- Контрольная работаКонтрольная работа представляет собой письменную работу в тестовой форме в LMS. Тест содержит как открытые, так и закрытые вопросы по пройденным материалам. Тест подразумевает ответы на вопросы по предоставленным данными в RStudio. Тест может содержать от 10 до 20 вопросов, покрывающих рассмотренные на занятиях темы
- Бонусные заданияПовышение оценки возможно за счет выполнения бонусных заданий, в частности, создания тьюториалов по дополнительным темам анализа данных. Тьюториалы создаются в виде отдельного урока по заданной преподавателями теме на платформе для онлайн-курсов Stepik.org.
Промежуточная аттестация
- 2022/2023 учебный год 2 модуль0.1 * Упражнения: онлайн-курс + 0.1 * Бонусные задания + 0.4 * Проект + 0.15 * Упражнения: семинары + 0.25 * Контрольная работа
Список литературы
Рекомендуемая основная литература
- James, G. et al. An introduction to statistical learning. – Springer, 2013. – 426 pp.
- Анализ данных : учебник для академического бакалавриата / В. С. Мхитарян [и др.] ; под редакцией В. С. Мхитаряна. — Москва : Издательство Юрайт, 2019. — 490 с. — (Бакалавр. Академический курс). — ISBN 978-5-534-00616-2. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/432178 (дата обращения: 28.08.2023).
Рекомендуемая дополнительная литература
- Siegel, E. Predictive analytics: The power to predict who will click, buy, lie, or die. – John Wiley & Sons, 2016. – 338 pp.
- Zhao, Y., & Cen, Y. (2013). Data Mining Applications with R. Amsterdam: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=543675