Бакалавриат
2022/2023
Основы анализа данных
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Экономика)
Направление:
38.03.01. Экономика
Кто читает:
Департамент экономики и финансов
Где читается:
Факультет менеджмента (Пермь)
Когда читается:
2-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
4
Контактные часы:
32
Программа дисциплины
Аннотация
Данный курс представляет собой адаптацию общеуниверситетского курса по анализу данных специально для студентов образовательной программы «Экономика» и направлен на формирование компетенций в области статистики и анализа данных. В курсе будут рассмотрены темы, которые необходимы для успешного освоения основных понятий и методов, связанных с анализом данных. Также будут рассмотрены темы, связанные с основами машинного обучения. Практические занятия по курсу проводятся на языке программирования R. Дисциплина реализуется с помощью онлайн-курса «Статистика для анализа данных» (https://edu.hse.ru/course/view.php?id=136232), а также с применением интерактивных занятий на языке R на платформе DataCamp (www.datacamp.com).
Цель освоения дисциплины
- Знакомство c языком программирования R
- Умение импортировать данные и проводить базовую предобработку данных для дальнейшего анализа в языке программирование R
- Знать и применять основные методы базового анализа данных, понимать применимость и ограничение этих методов
Планируемые результаты обучения
- ● Корректно открывать табличные данные различных форматов, работать с ними.
- ● Визуализировать данные с помощью различных диаграмм: тепловой карты, ящика с усами и других.
- Понимать и корректно использовать основные статистические понятия
- Фильтровать данные по нескольким условиям
- Вычислять релевантные описательные статистики и интерпретировать полученные результаты
- Визуализировать данные с помощью простейших видов диаграмм: линейной, точечной, столбчатой
- Уметь реализовывать все шаги проверки статистических гипотез
- Применять параметрические статистические критерии для проверки гипотез
- Применять непараметрические статистические критерии для проверки гипотез
- Создавать интерактивные визуализации
- Использовать R в применении к анализу данных
- Сортировать данные
- Уметь применять функции пакета dplyr на языке программирования R
- Уметь идентифицировать типы данных
- Уметь строить гистограмму и полигон, различать необходимость их применения
- Переводить значения признака в z-оценки
- Обрабатывать пропущенные значения и выбросы
- Строить уравнение линейной регрессии с использованием метода наименьших квадратов
- Оценивать качество модели линейной регрессии с помощью релевантных метрик
- Оценивать качество модели логистической регрессии с помощью релевантных метрик
- Строить модель логит, интерпретировать коэффициенты
- Решать задачу классификации с использованием KNN
- Оценивать качество модели классификации с помощью релевантных метрик
Содержание учебной дисциплины
- Введение в инструменты и Базовые манипуляции с данными
- Типы данных и Описательные статистики
- Генеральная совокупность и выборка. Частотные таблицы и распределения
- Z-оценка. Выбросы и Корреляция
- Визуализация
- Введение в тестирование гипотез. Параметрические и непараметрические критерии.
- Линейная и логистическая регрессия
- Введение в машинное обучение
Элементы контроля
- ЭкзаменЭзамен представляет собой 60-минутную письменную работу, которая включает в себя (1) тестовые задания открытого типа; (2) тестовые задания закрытого типа; (3) интерпретация результатов работы алгоритма на языке программирования R
- МикроконтрольОценка за микроконтроли рассчитывается как среднее арифмитеческое отдельных микроконтролей, всего из будет проведено около 8-10. Обычно микроконтроль проводится в начале семинара или лекции в течение 5-7 минут, включает в себя вопросы по пройденному материалу
- Самостоятельная работаСтудентам предлагаются к прохождению обязательные курсы и дополнительные курсы на площадке DataCamp
- ПроектПроект представляет с собой расчетную работу студентов на базе данных, выбранной студентами. Проект имеет жесткую структуру и ограниченное количество инструментов, которые могут быть применимы. Проект выполняется в группах не более 2-3х человек.
- ОтчетыПо итогам части семинаров студенты оформляют отчет о проделанной работе. Оценка за отчеты составляет среднее арифметическое всех отчетов
Промежуточная аттестация
- 2022/2023 учебный год 3 модуль0.15 * Микроконтроль + 0.4 * Экзамен + 0.15 * Отчеты + 0.1 * Самостоятельная работа + 0.2 * Проект
Список литературы
Рекомендуемая основная литература
- Alain Zuur, Elena N. Ieno, & Erik Meesters. (2009). A Beginner’s Guide to R. Springer.
- Frederick J Gravetter, Larry B. Wallnau, Lori-Ann B. Forzano, & James E. Witnauer. (2020). Essentials of Statistics for the Behavioral Sciences, Edition 10. Cengage Learning.
- Прикладная статистика в задачах и упражнениях : учебник, Айвазян С.А., Мхитарян В.С., 2001
Рекомендуемая дополнительная литература
- Gareth James, Daniela Witten, Trevor Hastie, & Robert Tibshirani. (2013). An Introduction to Statistical Learning : With Applications in R. Springer.
- Jeffrey M. Wooldridge. (2019). Introductory Econometrics: A Modern Approach, Edition 7. Cengage Learning.
- Newbold, P., Carlson, W. L., & Thorne, B. (2013). Statistics for Business and Economics: Global Edition (Vol. Eight edition). Boston, Massachusetts: Pearson Education. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1417883
- Прикладная статистика. Основы эконометрики. Т.1: Теория вероятностей и прикладная статистика, Айвазян, С. А., 2001