Бакалавриат
2020/2021
Теория вероятностей и математическая статистика
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Политология)
Направление:
41.03.04. Политология
Кто читает:
Кафедра высшей математики
Где читается:
Факультет социальных наук
Когда читается:
2-й курс, 1-3 модуль
Формат изучения:
без онлайн-курса
Язык:
русский
Кредиты:
5
Контактные часы:
106
Программа дисциплины
Аннотация
Обязательный курс «Теория вероятностей и математическая статистика» для профиля «Политический анализ» бакалаврской программы «Политология» продолжает курс «Математика и статистика» для профиля «Политический анализ» на втором курсе. Курс длится 3 модуля и включает в себя изучение продвинутых понятий и методов теории вероятностей, математической и прикладной статистики. В задачи курса входит в том числе освоение студентами статистического моделирования и анализа политологических данных в пакете R. Материалы этого курса используются в последующих обязательных для профиля «Политический анализ» курсах статистического анализа многомерных и других типов статистических данных, а так же необходимы для написания курсовых работ и ВКР по количественному анализа данных в политологии. Для успешного освоения курса необходимы хорошие знания курса «Математика и статистика» и базовые навыки работы с компьютером.
Цель освоения дисциплины
- Овладеть знаниями в области теории вероятностей и математической статистики, необходимыми для освоения базовых методов анализа данных в социальных науках.
Планируемые результаты обучения
- Умеет рассчитать условное математическое ожидание, знает сферы применения экспоненциального распределения и распределения Пуассона
- Умеет получать оценки параметров методом моментов
- Умеет получать оценки параметров методом максимального правдоподобия
- Понимает различия между точечными и интервальными оценками, корректно интерпретирует доверительные интервалы, знает свойства точечных оценок
- Умеет строить доверительный интервал для дисперсии
- Умеет строить доверительный интервал для разности средних двух независимых нормальных выборок
- Умеет при помощи Rstudio готовить данные к последующему анализу
- Умеет рассчитывать и корректно интерпретировать величины ошибки I, II рода и мощности в рамках проверки гипотез
- Умеет проверять статистические гипотезы при помощи p-value
- Умеет проверять гипотезу о равенстве средних двух независимых выборок из нормального распределения
- Умеет решать задачу о 2-х и более независимых выборок при помощи непараметрических критериев
- Знает сферу применения дисперсионного анализа
- Умеет выводить оценки коэффициентов в модели парной регрессии, корректно интерпретирует полученные оценки
- Знает допущения классической линейной регрессии
- Корректно интерпретирует оценки коэффициентов множественной регрессии, понимает потенциальные источники мультиколлинеарности
- Умеет диагностировать гетероскедастичность и знает, какие поправки вносить в модель в условиях гетероскедастичности
- Умеет выявлять влиятельные и нетипичные наблюдения
- Знает критерии качества регрессионных моделей, умеет выбирать релевантную модель на основе информационных критериев
Содержание учебной дисциплины
- Распределение вероятностей дискретных и непрерывных случайных величин. Условное распределение и условное математическое ожиданиеИспытание Бернулли и биномиальное распределение. Обобщение испытания Бернулли на случай k исходов (k > 2). Распределение Пуассона: формула расчета вероятности, функция распределения, область применения, содержательная интерпретация параметра λ, свойства; связь с биномиальным распределением. Понятие функции распределения и функции плотности распределения. Экспоненциальное распределение. Нормальное и стандартное нормальное распределение. Совместное распределение. Условное распределение. Условное математическое ожидание.
- Понятие интервальной оценки. Распределение хи-квадрат. Распределение выборочной оценки дисперсии с нормальной выборкойФилософия интервального оценивания. Схема бесконечного сэмплинга. Построение интервальной оценки. Распределение хи-квадрат: определение через стандартные нормальные величины и через плотность распределения. Числовые характеристики. Асимптотика. Интервальная оценка для дисперсии нормальной выборки. Доказательство. Доверительный интервал для дисперсии нормальной выборки. Критерий Фишера: нулевая гипотеза о равенстве дисперсий двух нормальных выборок, дисперсионное отношение Фишера (статистика Фишера), критерий проверки нулевой гипотезы о равенстве дисперсий двух нормальных выборок.
- Распределение Стьюдента. Распределение стьюдентовской дроби (с доказательством). Доверительный интервал для разности средних двух независимых нормальных выборокРаспределение Стьюдента: определение через стандартные нормальные величины и через плотность распределения. Числовые характеристики распределения Стьюдента. Доказательство того, что дробь Стьюдента имеет распределение Стьюдента.
- Подготовка данных к анализуПрактикум в R. Источники данных. Работа с разными форматами данных. Структура данных. Агрегирование данных. «Очистка» данных. Отбор необходимых для работы данных. Преобразование переменных. Создание новых переменных. Инструменты визуализации.
- Точечные оценкиПовторение: понятие оценки. Точечная и интервальная оценки. Идея метода моментов и его применение. Понятие правдоподобия. Идея метода максимального правдоподобия. Нахождение ММП-оценок параметров распределения Бернулли и Пуассона, биномиального, показательного, нормального и равномерного распределений. Точечная и интервальная оценки. Свойства точечных оценок: несмещенность, асимптотическая несмещенность, состоятельность, эффективность. Понятие среднего квадрата ошибки.
- Проверка гипотез.Логика проверки статистических гипотез. Определение ошибки первого рода, ошибки второго рода. Графическое изображение. Взаимозависимость вероятности ошибки первого рода и вероятности ошибки второго рода. Возможность одновременного снижения вероятности ошибки первого рода и вероятности ошибки второго рода. Определение мощности критерия. Построение критических областей в дискретном и непрерывном случаях. Логика проверки статистических гипотез. Понятие минимального уровня значимости (p-value). Пример критерия знаков. Современный подход к проверке гипотез. P-value как условная вероятность. Почему p-value не вероятность ошибки I рода? Почему гипотезы можно отвергать, но нельзя принимать.
- Параметрическая задача о 2 независимых выборках: критерий Стьюдента. Двойственность с доверительным интервалом для разности средних. Проблема Беренса-Фишера. Модель дисперсионного анализа. МНК-оценка параметров модели. Проверка гипотез о параметрах.
- Непараметрический подход к задаче о 2 и k независимых выборках: критерий Уилкоксона и Краскела-Уоллиса
- Парная регрессия: постановка задачи, МНК-оценки, проверка гипотезы про коэффициенты. Теорема Гаусса-Маркова и теорема Рао о свойствах МНК-оценок. Статистический вывод в регрессии: статистическая значимость коэффициентов. Критерии качества моделей, сравнение моделей. Разложение вариации.Корреляция Пирсона: смещенность. Сравнение двух коэффициентов Пирсона, преобразование Фишера, проверка гипотезы о равенстве двух коэффициентов. Регрессионный анализ. Модель парной линейной регрессии. Парная линейная регрессия как линейная аппроксимация условного матеметического ожидания. Оценивание коэффициентов парной линейной регрессии: метод наименьших квадратов. Интерпретация коэффициентов регрессии при непрерывных переменных
- Модель множественной линейной регрессииМНК-оценки в матричном виде. Мультиколлинеарность. Источники мультиколлинеарности. Последствия мультиколлинеарности для статистического вывода. Способы диагностики. Меры борьбы с мультиколлинеарностью.
- ГетероскедастичностьИсточники гетероскедастичности. Последствия гетероскедастичности для статистического вывода. Способы диагностики. Меры борьбы с гетероскедастичностью.
- Нетипичные и влиятельные наблюденияПоследствия и способы диагностики (межквартильный размах, коробчатая диаграмма Тьюки и статистические выбросы, мера потенциального влияния, мера Кука, графики остатков).
- Критерии качества регрессионных моделей. Выбор модели
Элементы контроля
- Домашние задания
- Самостоятельные работы
- Контрольная работа 1
- Экзаменационная работа
- Контрольная работа 2
- Работа на семинарах
Промежуточная аттестация
- Промежуточная аттестация (3 модуль)0.15 * Домашние задания + 0.15 * Контрольная работа 1 + 0.15 * Контрольная работа 2 + 0.1 * Работа на семинарах + 0.15 * Самостоятельные работы + 0.3 * Экзаменационная работа
Список литературы
Рекомендуемая основная литература
- Путеводитель по современной эконометрике : учеб.- метод. пособие для вузов, Вербик, М., 2008
- Статистический анализ данных на компьютере, Тюрин, Ю. Н., 1998
Рекомендуемая дополнительная литература
- Introductory econometrics: a modern approach, Wooldridge, J.M., 2016
- Larocca, R. (2005). Reconciling Conflicting Gauss-Markov Conditions in the Classical Linear Regression Model. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.343D1CB
- WORKSHOP How Not to Lie with Statistics: Avoiding Common Mistakes in Quantitative Political Science *. (n.d.). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.E7A759A2