2022/2023
Сбор, управление и анализ данных о социальных процессах
Статус:
Маго-лего
Когда читается:
3, 4 модуль
Онлайн-часы:
20
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
6
Контактные часы:
80
Программа дисциплины
Аннотация
В ходе курса студенты научатся базовым методам сбора, подготовки к анализу, визуализации и анализа данных в программе R. Курс ориентирован на практическое освоение методов работы на реальных социологических данных. Слушатели также познакомятся с современными исследованиями в области социологии образования и труда.
Цель освоения дисциплины
- Научить студентов базовым методам сбора, подготовки к анализу, визуализации и анализа данных в программе R
Планируемые результаты обучения
- Студенты умеют создавать, отбирать элементы, выполнять операции с основными типами и структурами данных в R
- Студенты умеют работать с условиями, циклами, функциями в R
- Студенты умеют импортировать данные в R из внешних файлов и сохранять данные в разных форматах
- Студенты умеют готовить данные к анализу в R
- Студенты могут объяснить основные принципы визуализации данных
- Студенты умеют строить основные типы графиков в R
- Студенты умеют проводить сравнение средних и дисперсионный анализ в R, могут проверить допущения анализа, визуализировать результаты и дать их корректную интерпретацию
- Студенты могут объяснить концепции ошибок 1 и 2 типа, статистической мощности и значимости, бутстрепа
- Студенты могут рассчитать в R коэффициенты корреляции Пирсона, Спирмена, критерий Х-квадрат Пирсона для оценки связи переменных, могут проверить допущения анализа, визуализировать результаты и дать их корректную интерпретацию
- Студенты могут объяснить ключевые понятия и задачи обучения с учителем и без учителя
- Студенты умеют построить линейную регрессию (МНК) в R, в том числе используя L1- и L2-регуляризацию, сделать предсказания, оценить качество моделей, сделать проверку допущений и диагностировать выбросы и мультиколлинеарность, визуализировать и корректно интерпретировать результаты
- Студенты умеют провести анализ и импутацию пропусков в данных
- Студенты могут объяснить метрики бинарной и мультиклассовой классификации
- Студенты умеют делать классификацию в R, используя разнообразные методы (наивный байесовский классификатор, логистическая регрессия, метод ближайших соседей, деревья решений, метод опорных векторов), могут подбирать оптимальные параметры, оценивать качество моделей и корректно интерпретировать результаты
- Студенты умеют использовать ансамбли алгоритмов в R
- Знают типы алгоритмов кластеризации
- Могут провести кластерный анализ различными алгоритмами используя пакеты языка R
- Знают шаги алгоритмов PCA, T-SNE, UMAP
- Могут понизить размерность данных используя пакеты языка R
- Знают основы синтаксиса HTML
- Могут скачать и распарсить HTML страницу и HTML-сайт
- Знают принципы REST архитектуры
- Могут собрать данные VK используя REST-API
- Знают принципы создания дашбордов на RShiny
- Могут создать дашборд на RShiny
- Могут обучить нейросеть с помощью пакетов R
- Могут сделать анализ временных рядов с помощью пакетов языка R
Содержание учебной дисциплины
- Знакомство с R
- Подготовка данных к анализу
- Визуализация данных
- Проверка гипотез
- Связь между переменными
- Линейная регрессия (МНК)
- Классификация
- Кластеризация
- Алгоритмы понижения размерности
- Нейронные сети
- Анализ временных рядов
- Сбор данных
- Интерактивные отчеты и дашборды
Элементы контроля
- Знакомство с RДомашняя работа включает ряд задач, связанных с с подготовкой, визуализацией, анализом данных в R или интерпретацией результатов. Студенты присылают файлы с выполненными заданиями в форматах Rmd и html
- Подготовка данных к анализуДомашняя работа включает ряд задач, связанных с с подготовкой, визуализацией, анализом данных в R или интерпретацией результатов. Студенты присылают файлы с выполненными заданиями в форматах Rmd и html.
- Кластеризация. Алгоритмы понижения размерности.Используя пакеты языка R для выбранного датасета требуется провести кластерный анализ и снижение размерности.
- КлассификацияИспользуя пакеты языка R для выбранного датасета требуется провести классификацию.
- Сбор данныхИспользуя пакеты языка R для выбранного сайта требуется собрать данные.
- Нейронные сети
- Анализ временных рядов
- Визуализация данныхДомашняя работа включает ряд задач, связанных с с подготовкой, визуализацией, анализом данных в R или интерпретацией результатов. Студенты присылают файлы с выполненными заданиями в форматах Rmd и html.
- Проверка гипотез. Связь между переменнымиДомашняя работа включает ряд задач, связанных с с подготовкой, визуализацией, анализом данных в R или интерпретацией результатов. Студенты присылают файлы с выполненными заданиями в форматах Rmd и html.
- Линейная регрессия (МНК)Домашняя работа включает ряд задач, связанных с с подготовкой, визуализацией, анализом данных в R или интерпретацией результатов. Студенты присылают файлы с выполненными заданиями в форматах Rmd и html.
Промежуточная аттестация
- 2022/2023 учебный год 4 модуль0.1 * Подготовка данных к анализу + 0.1 * Классификация + 0.1 * Анализ временных рядов + 0.1 * Линейная регрессия (МНК) + 0.1 * Визуализация данных + 0.1 * Проверка гипотез. Связь между переменными + 0.1 * Нейронные сети + 0.1 * Знакомство с R + 0.1 * Кластеризация. Алгоритмы понижения размерности. + 0.1 * Сбор данных
Список литературы
Рекомендуемая основная литература
- Bruce, P. C., & Bruce, A. (2017). Practical Statistics for Data Scientists : 50 Essential Concepts (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1517577
- Fuzzy cluster analysis : methods for classification, data analysis and image recognition, Hoppner, F., 2000
- King, R. S. (2015). Cluster Analysis and Data Mining : An Introduction. Mercury Learning & Information.
- Performance dashboards : measuring, monitoring, and managing your business, Eckerson, W. W., 2006
- Principal component analysis, Jolliffe, I. T., 2010
- R in action : Data analysis and graphics with R, Kabacoff, R. I., 2011
- Robust cluster analysis and variable selection, Ritter, G., 2015
- Visualizations and dashboards for learning analytics, , 2021
- Wickham H. ggplot2: elegant graphics for data analysis. Second edition. Cham: Springer, 2016. 260 p.
- Мастицкий, С. Э. Визуализация данных с помощью ggplot2 / С. Э. Мастицкий. — Москва : ДМК Пресс, 2017. — 222 с. — ISBN 978-5-97060-470-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/107895 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Мастицкий, С. Э. Статистический анализ и визуализация данных с помощью R / С. Э. Мастицкий, В. К. Шитиков. — Москва : ДМК Пресс, 2015. — 496 с. — ISBN 978-5-97060-301-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73072 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Cluster analysis. Vol.3: Cluster analysis in practice, , 2012