Магистратура
2023/2024
Сбор, управление и анализ данных о социальных процессах
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Социология публичной сферы и цифровая аналитика)
Направление:
39.04.01. Социология
Где читается:
Факультет социальных наук
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
с онлайн-курсом
Онлайн-часы:
20
Охват аудитории:
для своего кампуса
Прогр. обучения:
Социология публичной сферы и цифровая аналитика
Язык:
русский
Кредиты:
6
Контактные часы:
80
Программа дисциплины
Аннотация
В ходе курса студенты научатся базовым методам сбора, подготовки к анализу, визуализации и анализа данных в программе R. Курс ориентирован на практическое освоение методов работы на реальных социологических данных. Слушатели также познакомятся с современными исследованиями в области социологии образования и труда.
Цель освоения дисциплины
- Научить студентов базовым методам сбора, подготовки к анализу, визуализации и анализа данных в программе R
Планируемые результаты обучения
- Студенты умеют создавать, отбирать элементы, выполнять операции с основными типами и структурами данных в R
- Студенты умеют работать с условиями, циклами, функциями в R
- Студенты умеют импортировать данные в R из внешних файлов и сохранять данные в разных форматах
- Студенты умеют готовить данные к анализу в R
- Студенты могут объяснить основные принципы визуализации данных
- Студенты умеют строить основные типы графиков в R
- Студенты умеют проводить сравнение средних и дисперсионный анализ в R, могут проверить допущения анализа, визуализировать результаты и дать их корректную интерпретацию
- Студенты могут объяснить концепции ошибок 1 и 2 типа, статистической мощности и значимости, бутстрепа
- Студенты могут рассчитать в R коэффициенты корреляции Пирсона, Спирмена, критерий Х-квадрат Пирсона для оценки связи переменных, могут проверить допущения анализа, визуализировать результаты и дать их корректную интерпретацию
- Студенты могут объяснить ключевые понятия и задачи обучения с учителем и без учителя
- Студенты умеют построить линейную регрессию (МНК) в R, в том числе используя L1- и L2-регуляризацию, сделать предсказания, оценить качество моделей, сделать проверку допущений и диагностировать выбросы и мультиколлинеарность, визуализировать и корректно интерпретировать результаты
- Студенты умеют провести анализ и импутацию пропусков в данных
- Студенты могут объяснить метрики бинарной и мультиклассовой классификации
- Студенты умеют делать классификацию в R, используя разнообразные методы (наивный байесовский классификатор, логистическая регрессия, метод ближайших соседей, деревья решений, метод опорных векторов), могут подбирать оптимальные параметры, оценивать качество моделей и корректно интерпретировать результаты
- Студенты умеют использовать ансамбли алгоритмов в R
- Знают типы алгоритмов кластеризации
- Могут провести кластерный анализ различными алгоритмами используя пакеты языка R
- Знают шаги алгоритмов PCA, T-SNE, UMAP
- Могут понизить размерность данных используя пакеты языка R
- Знают основы синтаксиса HTML
- Могут скачать и распарсить HTML страницу и HTML-сайт
- Знают принципы REST архитектуры
- Могут собрать данные VK используя REST-API
- Могут сделать анализ временных рядов с помощью пакетов языка R
Содержание учебной дисциплины
- Знакомство с R
- Подготовка данных к анализу
- Визуализация данных
- Проверка гипотез
- Связь между переменными
- Линейная регрессия (МНК)
- Классификация
- Кластеризация
- Алгоритмы понижения размерности
- Анализ временных рядов
- Сбор данных
Элементы контроля
- Подготовка данных к анализу и визуализацияДомашняя работа включает задания на подготовку данных к анализу и построение графиков
- Проверка гипотез, оценка связи, МНКДомашняя работа включает задания на подготовку данных к анализу, анализ и интерпретацию результатов
- КлассификацияДомашняя работа включает задания на подготовку данных к анализу, анализ и интерпретацию результатов
- Кластеризация, алгоритмы понижения размерностиДомашняя работа включает задания на подготовку данных к анализу, анализ и интерпретацию результатов
- Анализ временных рядовДомашняя работа включает задания на подготовку данных к анализу, анализ и интерпретацию результатов
Промежуточная аттестация
- 2023/2024 4th module0.2 * Анализ временных рядов + 0.2 * Классификация + 0.2 * Кластеризация, алгоритмы понижения размерности + 0.2 * Подготовка данных к анализу и визуализация + 0.2 * Проверка гипотез, оценка связи, МНК
Список литературы
Рекомендуемая основная литература
- 9781491952931 - Bruce, Peter C.; Bruce, Andrew - Practical Statistics for Data Scientists : 50 Essential Concepts - 2017 - O'Reilly Media - http://search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=1517577 - nlebk - 1517577
- Long, J. D., & Teetor, P. (2019). R Cookbook : Proven Recipes for Data Analysis, Statistics, and Graphics: Vol. Second edition. O’Reilly Media.
- R in action : Data analysis and graphics with R, Kabacoff, R. I., 2011
- Мастицкий, С. Э. Визуализация данных с помощью ggplot2 / С. Э. Мастицкий. — Москва : ДМК Пресс, 2017. — 222 с. — ISBN 978-5-97060-470-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/107895 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Мастицкий, С. Э. Статистический анализ и визуализация данных с помощью R / С. Э. Мастицкий, В. К. Шитиков. — Москва : ДМК Пресс, 2015. — 496 с. — ISBN 978-5-97060-301-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73072 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Храмов, Д. А. Сбор данных в Интернете на языке R / Д. А. Храмов. — Москва : ДМК Пресс, 2017. — 280 с. — ISBN 978-5-97060-459-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/97350 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Field, A. V. (DE-588)128714581, (DE-627)378310763, (DE-576)186310501, aut. (2012). Discovering statistics using R Andy Field, Jeremy Miles, Zoë Field. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edswao&AN=edswao.363067604
- King, R. S. (2015). Cluster Analysis and Data Mining : An Introduction. Mercury Learning & Information.
- Principal component analysis, Jolliffe, I. T., 2010
- Wickham H. ggplot2: elegant graphics for data analysis. Second edition. Cham: Springer, 2016. 260 p.