2023/2024
Анализ данных
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Статус:
Маго-лего
Кто читает:
Департамент социологии
Когда читается:
2, 3 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Сурков Антон Юрьевич
Язык:
русский
Кредиты:
6
Контактные часы:
48
Программа дисциплины
Аннотация
В рамках курса будут обсуждаться методы подготовки и анализа данных. Студенты познакомятся с принципами критического анализа данных, ориентированного на изучение культурных, этических и социально-технических проблем на стыке социальных наук, информатики и общества. Дисциплина направлена на выработку у студентов критического подхода к таким темам, как большие данные, этика данных, конфиденциальность, алгоритмы решения социальных проблем при помощи систем данных.
Цель освоения дисциплины
- Уметь проводить статистический анализ данных, а также решать исследовательские и практические задачи с помощью различных техник моделирования
Планируемые результаты обучения
- Умение определять нужную парадигму анализа данных для конкретного исследования, ориентироваться в современных подходах к анализу данных, формулировать исследовательские гипотезы и задачи исследований и подбирать соответствующие методы анализа данных
- Умение интерпретировать результаты моделирования для линейной регрессии, использовать линейную регрессию в релевантных задачах, производить моделирование в случаях нарушений предположений МНК при помощи ОМНК и пересчета стандартных ошибок коэффициентов. Умение использовать линейную регрессию с регуляризацией для задач машинного обучения.
- Уметь применять методы классического машинного обучения для решения задач классификации и регрессии
- Студент знает основные методы обработки текста и способы токенизации. Умеет работать с языковыми моделями и встраивать их в свои задачи.
Содержание учебной дисциплины
- Введение в анализ данных
- Разведовательный анализ
- Линейная регрессия
- Классические методы машинного обучения для классификации и регрессии
- Введение в NLP
Промежуточная аттестация
- 2023/2024 учебный год 3 модуль0.6 * проект + 0.1 * работа на семинарах + 0.1 * работа на семинарах + 0.2 * тест
Список литературы
Рекомендуемая основная литература
- Matt Wiley, & Joshua F. Wiley. (2019). Advanced R Statistical Programming and Data Models : Analysis, Machine Learning, and Visualization. Apress.
- Yang, X.-S. (2019). Introduction to Algorithms for Data Mining and Machine Learning. Academic Press.
Рекомендуемая дополнительная литература
- Field, A. V. (DE-588)128714581, (DE-627)378310763, (DE-576)186310501, aut. (2012). Discovering statistics using R Andy Field, Jeremy Miles, Zoë Field. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edswao&AN=edswao.363067604
- Linear Regression Using R - An Introduction to Data Modeling - CCBY4_059 - David Lilja - 2022 - Open Educational Resources: libretexts.org - https://ibooks.ru/bookshelf/390845 - 390845 - iBOOKS