• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2020/2021

Современные методы анализа данных

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Направление: 01.04.02. Прикладная математика и информатика
Когда читается: 1-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Прогр. обучения: Информационные системы и взаимодействие человек-компьютер
Язык: русский
Кредиты: 4
Контактные часы: 44

Программа дисциплины

Аннотация

Целью освоения дисциплины «Современные методы анализа данных» является изучение основных принципов машинного обучения, эффективных алгоритмов обучения и применения обученных моделей. В результате изучения дисциплины у студента будет сформировано представление об основных задачах, решаемых с помощью моделей машинного обучения, как в области анализа пользователей информационных систем, так и при построение сервисов и приложений, основанных на данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • изучение основных принципов машинного обучения и построение моделей для решения задач автоматизации и анализа пользователей
Планируемые результаты обучения

Планируемые результаты обучения

  • Применяет основные конструкции языка Python и библиотек для анализа данных
  • Интерпретирует результаты статистического анализа с учетом ограничений использованных методов
  • Обосновывает выбор методов и инструментария для проверки гипотез
  • Знает основные понятия машинного обучения
  • Строит предсказательные модели на языке Python
  • Интерпретирует результаты предсказания
  • Строит ансамблевые модели на языке Python
  • Выявляет смещения (bias) в моделях
  • Строит модели с применением методов интерпретируемого машинного обучения
  • Выделяет подгруппы пользователей с помощью инструментов анализа данных
  • Выделяет правила из данных методами машинного обучения
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение, основные понятия анализа данных, инструментарий
    Область науки о данных: главные методы, техники, темы и прикладные возможности. Анализ данных в различных прикладных областях. Основные определения. Этапы анализа данных. Воспроизводимые исследования: возможности и ключевые цели. Инструменты R, RStudio. Инструменты Python (пакеты scipy и numpy, сборка Anaconda, Pandas, Scikit-learn и др.). Математика для анализа данных
  • Выводы на основе данных: проверка гипотез и статистические тесты
    Визуализация и агрегация данных: фильтрация, объединение, сортировка данных. Математическая статистика и анализ данных. Оценивание параметров распределений. Метод максимального правдоподобия. Доверительные интервалы и бутстрэппинг. Тестирование статистических гипотез. Нахождение зависимостей в данных. A/B-тестирование
  • Сегментация данных
    Задачи обучения без учителя. Кластеризация, уменьшение размерности, автоматическое выделение правил. Выделение подгрупп пользователей информационных систем.
  • Предсказания на основе данных. Классификация и регрессия
    Возможности применения статистического обучения в информационных системах. Машинное обучение с учителем. Задачи классификации и регрессии. Деревья решений, модели регрессии. Клиентская аналитика, предсказание оттока пользователей, оценка LTV
  • Сложные модели и их применение.
    Сервисы, основанные на данных. Задачи предсказания и вывода. Ансамбли моделей. Модели, допускающие интерпретацию. Интерпретируемое машинное обучение (iML, xAI). Причинно-следственные связи
Элементы контроля

Элементы контроля

  • неблокирующий Дневники проекта
    За сдачу после дедлайна начисляется 5% штраф за каждый день просрочки
  • неблокирующий Проект
    За сдачу после дедлайна начисляется 5% штраф за каждый день просрочки
  • неблокирующий Экзамен
  • неблокирующий Эссе
    Домашнее задание представляет собой структурированное эссе по одной из статей, связанных с методологией или применением A/B тестирования. Статья выбирается из предложенного преподавателем списка или самостоятельно студентом по согласованию с преподавателем.
  • неблокирующий Упражнения
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.25 * Дневники проекта + 0.3 * Проект + 0.1 * Упражнения + 0.2 * Экзамен + 0.15 * Эссе
Список литературы

Список литературы

Рекомендуемая основная литература

  • James, G. et al. An introduction to statistical learning. – Springer, 2013. – 426 pp.
  • Вьюгин В.В. - Математические основы машинного обучения и прогнозирования - Московский центр непрерывного математического образования - 2014 - 304с. - ISBN: 978-5-4439-2014-6 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/56397

Рекомендуемая дополнительная литература

  • Molnar, C. (2018). iml: An R package for Interpretable Machine Learning. https://doi.org/10.5281/zenodo.1299058
  • Provost, F., & Fawcett, T. (2013). Data Science for Business : What You Need to Know About Data Mining and Data-Analytic Thinking (Vol. 1st ed). Beijing: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=619895