• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2020/2021

Интеллектуальный анализ данных и основы машинного обучения

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Майнор
Когда читается: 1, 2 модуль
Преподаватели: Сироткин Александр Владимирович, Суворова Алёна Владимировна, Чуприна Дарья Викторовна
Язык: русский
Кредиты: 5
Контактные часы: 60

Программа дисциплины

Аннотация

Данный курс посвящен развитию и закреплению навыков, полученных в двух предыдущих курсах майнора. В первой части курса акцент сделан на знакомстве с основными понятиями и алгоритмами машинного обучения, а также соответствующими математическими моделями. Вторая часть курса позволяет более детально погрузиться в одну из выбранных областей. Курс ориентирован на формирование у студентов способности строить собственные модели, ориентированные на конкретные имеющиеся данные, и обзорное знакомство с очень широким спектром методов. В результате освоения курса студенты будут способны самостоятельно разбираться в существующих методах, а так же самостоятельно осваивать методы и модели, не разбиравшиеся подробно в курсах, но необходимые для обработки конкретных специфических данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины «Интеллектуальный анализ данных и основы машинного обучения» являются освоение основных понятий и методов машинного обучения, развитие навыков программирования для решения задач предсказания на языке R, а также углубление навыков работы с данными в специфических областях, включая клиентскую аналитику и визуализацию.
Планируемые результаты обучения

Планируемые результаты обучения

  • знает основные понятия машинного обучения
  • преобразовывает описание задачи в формулировку в терминах задачи построения модели регрессии или классификации
  • разрабатывает модели на языке R для решения задач предсказания
  • оценивает качество моделей машинного обучения
  • интерпретирует результаты моделей машинного обучения
  • решает задачи кластеризации на языке R
  • разрабатывает модели для решения задач клиентской аналитики
  • визуализирует результаты анализа специализированных данных
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основные понятия машинного обучения
    Понятие машинного обучения. Задачи обучения с учителем и без учителя. Задачи классификации и регрессии. Статистическая теория принятия решений. Разложение bias- variance-noise. Переобучение. Тестовая и обучающая выборки. Кросс-валидация.
  • Задачи классификации и регрессии
    Линейная регрессия. Регрессионные деревья. Ошибки модели в задачах регрессии. Метрики качества. Логистическая регрессия. Классификационные деревья. Метрики качества классификации
  • Ансамбли моделей и интерпретация
    Ансамбли моделей: методы голосования, бустинг, бэггинг, стакинг. Алгоритм случайного леса, градиентный бустинг. Глобальная интерпретация, важность признаков. Алгоритм рекурсивного удаления признаков. Локальная интерпретация (LIME).
  • Обучение без учителя
    Примеры задач обучения без учителя. Классификация, метод k-средних, иерархическая кластеризация. Задачи отбора признаков.
  • Интеллектуальный анализ данных
    Трек 1: клиентская аналитики, введение в SQL, прогнозирование оттока клиентов, дашборды Трек 2: алгоритмы машинного обучения, введение в Python, соревнования по машинному обучению Трек 3: анализ текстов, структурные модели, визуализация сетей и карт
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа
  • неблокирующий Упражнения
  • неблокирующий Домашнее задание
  • неблокирующий Проект
    Форма итогового программного проекта отличается для разных треков. Данные для задания предоставляются преподавателем. Работа выполняется индивидуально. Проект должен содержать все необходимые пояснения и интерпретации. Трек 1. Проект предполагает построение дэшборда и отчета с пояснениями и обоснованием выбора элементов дэшборда для задачи клиентской аналитики и предсказания оттока клиентов. Итоговый отчет содержит следующие разделы: 1) формулировка решаемой задачи, 2) описание методов решения поставленной задачи, 3) полученные результаты и выводы, 4) обоснование включенных в дэшборд элементов (как они помогают представить полученные результаты). Трек 2. Проект предполагает построение предсказательной модели в формате соревнования по машинному обучению и составление отчета с пояснениями по построенной модели. Итоговый отчет содержит следующие разделы: 1) предварительное исследование данных, 2) описание используемых для предсказания признаков и способы их формирования, 3) как минимум две предсказательные модели и обоснование выбора итоговой модели, 4) описание результатов в соревновании. Трек 3. Проект предполагает составление аналитического отчета по выбранной тематике (в контексте сетей и текстов) и оформление результатов работы в формате блог-поста с визуализациями. Итоговый отчет содержит следующие разделы: 1) описание поставленной задачи, 2) предварительное исследование данных, 3) описание использованных методов, 4) описание полученных результатов.
  • неблокирующий Контрольная работа
  • неблокирующий Упражнения
  • неблокирующий Домашнее задание
  • неблокирующий Проект
    Форма итогового программного проекта отличается для разных треков. Данные для задания предоставляются преподавателем. Работа выполняется индивидуально. Проект должен содержать все необходимые пояснения и интерпретации. Трек 1. Проект предполагает построение дэшборда и отчета с пояснениями и обоснованием выбора элементов дэшборда для задачи клиентской аналитики и предсказания оттока клиентов. Итоговый отчет содержит следующие разделы: 1) формулировка решаемой задачи, 2) описание методов решения поставленной задачи, 3) полученные результаты и выводы, 4) обоснование включенных в дэшборд элементов (как они помогают представить полученные результаты). Трек 2. Проект предполагает построение предсказательной модели в формате соревнования по машинному обучению и составление отчета с пояснениями по построенной модели. Итоговый отчет содержит следующие разделы: 1) предварительное исследование данных, 2) описание используемых для предсказания признаков и способы их формирования, 3) как минимум две предсказательные модели и обоснование выбора итоговой модели, 4) описание результатов в соревновании. Трек 3. Проект предполагает составление аналитического отчета по выбранной тематике (в контексте сетей и текстов) и оформление результатов работы в формате блог-поста с визуализациями. Итоговый отчет содержит следующие разделы: 1) описание поставленной задачи, 2) предварительное исследование данных, 3) описание использованных методов, 4) описание полученных результатов.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.2 * Домашнее задание + 0.25 * Контрольная работа + 0.4 * Проект + 0.15 * Упражнения
Список литературы

Список литературы

Рекомендуемая основная литература

  • James, G. et al. An introduction to statistical learning. – Springer, 2013. – 426 pp.
  • Под ред. Мхитаряна В.С. - АНАЛИЗ ДАННЫХ. Учебник для академического бакалавриата - М.:Издательство Юрайт - 2019 - 490с. - ISBN: 978-5-534-00616-2 - Текст электронный // ЭБС ЮРАЙТ - URL: https://urait.ru/book/analiz-dannyh-432178

Рекомендуемая дополнительная литература

  • Siegel, E. Predictive analytics: The power to predict who will click, buy, lie, or die. – John Wiley & Sons, 2016. – 338 pp.
  • Zhao, Y., & Cen, Y. (2013). Data Mining Applications with R. Amsterdam: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=543675