Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2020/2021

Предиктивное моделирование данных

Статус: Курс по выбору (Бизнес-информатика)
Направление: 38.04.05. Бизнес-информатика
Когда читается: 1-й курс, 2, 3 модуль
Формат изучения: без онлайн-курса
Прогр. обучения: Бизнес-информатика
Язык: русский
Кредиты: 5
Контактные часы: 40

Программа дисциплины

Аннотация

Дисциплина "Предиктивное моделирование данных" предполагает получение студентами теоретических знаний в области анализа данных, выявления структуры анализируемой выборки, нахождения взаимосвязей между показателями, измеренными в разных шкалах, построения регрессионных моделей, проведения факторного и кластерного анализа, прогнозирования с использованием деревьев решений, а также получение практических навыков применения статистических методов при решении задач с использованием профессиональных систем статистического анализа данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины является формирование у студентов комплекса теоретических знаний и методологических основ в области предиктивного моделирования данных, а также практических навыков, необходимых для использования системы IBM SPSS Statistics, обеспечивающих решение широкого круга задач с использованием статистических методов.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать понятия выборки, генеральной совокупности, вероятности, статистической значимости. Понимать назначения шкал измерения переменных, уметь модифицировать данные и осуществлять их отбор.
  • Понимать сущность процедуры расчета частотных таблиц, знать структуру и содержание элементов таблиц сопряженности, статистических характеристик распределения значений переменных, измеренных в интервальной шкале.
  • Знать особенности измерения связей для переменных, измеренных в номинальной, порядковой и интервальной шкалах.
  • Уметь строить модели парной и множественной линейной регрессии. Знать методы оценки качества моделей.
  • Уметь строить модели бинарной и порядковой логистической регрессии. Знать методы оценки качества моделей.
  • Знать методы дерева решений и методы проверки адекватности модели.
  • Знать сущность методов кластеризации, принципы факторного анализа и метод главных компонент. Уметь решать задачи с использованием этих методов.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Особенности подготовки данных для статистического анализа.
    Предмет и содержание курса, связь с другими дисциплинами. Классификация основных методов статистического анализа данных, разработанных в рамках теории математической статистики. Понятие выборки и генеральной совокупности, вероятности и статистической значимости. Шкалы измерения. Переменные и наблюдения, значение переменной в конкретном наблюдении. Имя переменной, тип переменной, метка переменной и метки значений. Редактирование, удаление, добавление переменных. Ввод новых наблюдений. Пропущенные значения. Модификация и отбор данных: условный отбор данных и случайная выборка, сортировка и группировка данных, перекодирование переменных, вычисление новых переменных. Поиск ошибок и логических противоречий в данных. Объединение файлов по переменным и наблюдениям.
  • Описательная статистика для переменных, измеренных в номинальной, порядковой и интервальной шкалах.
    Процедура расчета частотных таблиц. Элементы частотных таблиц и их интерпретация. Таблицы сопряженности. Структура и содержание элементов таблицы, ее итоговых показателей. Графическая интерпретация частотных таблиц и таблиц сопряженности. Получение статистических характеристик распределения значений переменных, измеренных в интервальной шкале. Проверка распределения на нормальность, однородность дисперсии в группах. Нормализующие преобразования. Стандартизация значений. Графический анализ данных: построение гистограмм, ящичковых диаграмм - BoxPlot, диаграмм Stem & Leaf - "ствол листья" графика Q-Q Normal Probability Plot - "нормальная вероятностная бумага", графика с удаленным трендом (Detrended Normal Plot). Характеристики различных типов графика.
  • Поиск связей между номинальными, порядковыми и количественными переменными.
    Особенности измерения связи для переменных, измеренных в номинальной и порядковой шкале. Проверка статистических гипотез. Статистическая значимость. Критерий Хи-квадрат и ограничения на его использование. Точные тесты (Exact-тест, метод Монте-Карло). Другие критерии проверки на независимость (коэффициент риска и т.д.). Построение и анализ диаграмм рассеяния. Коэффициенты корреляции Пирсона. Ранговые коэффициенты корреляции. Частные корреляции. Значимость связи.
  • Введение в регрессионный анализ.
    Модель парной линейной регрессии. Оценка качества модели, Интерпретация коэффициентов при независимых переменных. Доверительные интервалы коэффициентов и прогнозных значений зависимой переменной. Множественная регрессия, проблема мультиколлинеарности, выбросы. Введение качественных переменных в регрессию. Проверка выполнения условий Гаусса-Маркова. Гетероскедастичность и методы ее устранения. Функциональные формы моделей с логарифмами.
  • Логистическая регрессия.
    Методы классификации. Модель логистической регрессии. Оценка качества модели. Категориальные предикторы, отбор предикторов. Методы диагностики. Мультиномиальная логистические регрессия. Порядковая регрессия.
  • Деревья решений.
    Деревья решений как метод классификации. Основные термины и понятия. Методы построения дерева решений. Анализ с помощью дерева решений. Обычные задачи анализа с применением метода дерева решений. Области приложения анализа с помощью метода дерева решений. Анализ с помощью метода CHAID. Метод Quest. Регрессионные деревья. Проверка адекватности модели. Сравнение методов построения дерева решений.
  • Кластерный и факторный анализ данных.
    Кластерный анализ как метод классификации. Иерархические и неиерархические методы кластерного анализа. Меры расстояния и нормировка. Профили средних значений кластеров. Кластеризация при помощи метода Варда. Метод k-средних. Факторный анализ. Принципы факторного анализа. Метод главных компонент. График «осыпь». Методы вращения.
Элементы контроля

Элементы контроля

  • неблокирующий контрольная работа, представляющая собой совокупность выполненных на занятиях заданий.
  • неблокирующий решение задач с использованием ПО IBM SPSS Statistics
    Экзамен проводится онлайн без прокторинга.
  • неблокирующий аудиторная работа.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    Оценка = 0.5*(0.7*оценка за контрольную работу + 0.3*оценка за аудиторную работу) + 0.5* оценка за экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • SPSS 19: профессиональный статистический анализ данных, Наследов, А., 2011
  • SPSS: искусство обработки информации : анализ стат. данных и восстановление скрытых закономерностей: пер. с нем., Бююль, А., 2002
  • Анализ данных на компьютере : учеб. пособие, Тюрин, Ю. Н., 2008
  • Анализ социологических данных с помощью пакета SPSS : учеб. пособие для вузов, Крыштановский, А. О., 2006
  • Введение в анализ данных : учебник и практикум для вузов, Миркин, Б. Г., 2015
  • Введение в математическую статистику, Ивченко, Г. И., 2010
  • Задачи с решениями по математической статистике : учеб. пособие для вузов, Ивченко, Г. И., 2007
  • Задачник по математической статистике : для студентов социально - гуманитарных и управленческих специальностей, Макаров, А. А., 2018
  • Задачник по теории вероятностей для студентов социально - гуманитарных специальностей, Макаров, А. А., 2015
  • Основные вероятностные распределения : учеб. пособие, Ивченко, Г. И., 2008
  • Прикладной регрессионный анализ, Дрейпер, Н. Р., 2007
  • Теория вероятностей : учебник для экономических и гуманитарных специальностей: учеб. пособие для вузов, Тюрин, Ю. Н., 2009
  • Теория вероятностей и математическая статистика : учеб. пособие, Мхитарян, В. С., 2013
  • Теория вероятностей и математическая статистика для социологов и менеджеров : учебник для вузов, Пашкевич, А. В., 2014
  • Теория вероятностей и статистика : учеб. пособие, Тюрин, Ю. Н., 2008

Рекомендуемая дополнительная литература

  • SPSS: Статистический анализ в маркетинговых исследованиях, Таганов, Д., 2005
  • Математические методы психологического исследования : анализ и интерпретация данных: учеб. пособие, Наследов, А. Д., 2006