• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2022/2023

Сбор, управление и анализ данных о социальных процессах

Статус: Маго-лего
Когда читается: 3, 4 модуль
Онлайн-часы: 20
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 6
Контактные часы: 80

Программа дисциплины

Аннотация

В ходе курса студенты научатся базовым методам сбора, подготовки к анализу, визуализации и анализа данных в программе R. Курс ориентирован на практическое освоение методов работы на реальных социологических данных. Слушатели также познакомятся с современными исследованиями в области социологии образования и труда.
Цель освоения дисциплины

Цель освоения дисциплины

  • Научить студентов базовым методам сбора, подготовки к анализу, визуализации и анализа данных в программе R
Планируемые результаты обучения

Планируемые результаты обучения

  • Студенты умеют создавать, отбирать элементы, выполнять операции с основными типами и структурами данных в R
  • Студенты умеют работать с условиями, циклами, функциями в R
  • Студенты умеют импортировать данные в R из внешних файлов и сохранять данные в разных форматах
  • Студенты умеют готовить данные к анализу в R
  • Студенты могут объяснить основные принципы визуализации данных
  • Студенты умеют строить основные типы графиков в R
  • Студенты умеют проводить сравнение средних и дисперсионный анализ в R, могут проверить допущения анализа, визуализировать результаты и дать их корректную интерпретацию
  • Студенты могут объяснить концепции ошибок 1 и 2 типа, статистической мощности и значимости, бутстрепа
  • Студенты могут рассчитать в R коэффициенты корреляции Пирсона, Спирмена, критерий Х-квадрат Пирсона для оценки связи переменных, могут проверить допущения анализа, визуализировать результаты и дать их корректную интерпретацию
  • Студенты могут объяснить ключевые понятия и задачи обучения с учителем и без учителя
  • Студенты умеют построить линейную регрессию (МНК) в R, в том числе используя L1- и L2-регуляризацию, сделать предсказания, оценить качество моделей, сделать проверку допущений и диагностировать выбросы и мультиколлинеарность, визуализировать и корректно интерпретировать результаты
  • Студенты умеют провести анализ и импутацию пропусков в данных
  • Студенты могут объяснить метрики бинарной и мультиклассовой классификации
  • Студенты умеют делать классификацию в R, используя разнообразные методы (наивный байесовский классификатор, логистическая регрессия, метод ближайших соседей, деревья решений, метод опорных векторов), могут подбирать оптимальные параметры, оценивать качество моделей и корректно интерпретировать результаты
  • Студенты умеют использовать ансамбли алгоритмов в R
  • Знают типы алгоритмов кластеризации
  • Могут провести кластерный анализ различными алгоритмами используя пакеты языка R
  • Знают шаги алгоритмов PCA, T-SNE, UMAP
  • Могут понизить размерность данных используя пакеты языка R
  • Знают основы синтаксиса HTML
  • Могут скачать и распарсить HTML страницу и HTML-сайт
  • Знают принципы REST архитектуры
  • Могут собрать данные VK используя REST-API
  • Знают принципы создания дашбордов на RShiny
  • Могут создать дашборд на RShiny
  • Могут обучить нейросеть с помощью пакетов R
  • Могут сделать анализ временных рядов с помощью пакетов языка R
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Знакомство с R
  • Подготовка данных к анализу
  • Визуализация данных
  • Проверка гипотез
  • Связь между переменными
  • Линейная регрессия (МНК)
  • Классификация
  • Кластеризация
  • Алгоритмы понижения размерности
  • Нейронные сети
  • Анализ временных рядов
  • Сбор данных
  • Интерактивные отчеты и дашборды
Элементы контроля

Элементы контроля

  • неблокирующий Знакомство с R
    Домашняя работа включает ряд задач, связанных с с подготовкой, визуализацией, анализом данных в R или интерпретацией результатов. Студенты присылают файлы с выполненными заданиями в форматах Rmd и html
  • неблокирующий Подготовка данных к анализу
    Домашняя работа включает ряд задач, связанных с с подготовкой, визуализацией, анализом данных в R или интерпретацией результатов. Студенты присылают файлы с выполненными заданиями в форматах Rmd и html.
  • неблокирующий Кластеризация. Алгоритмы понижения размерности.
    Используя пакеты языка R для выбранного датасета требуется провести кластерный анализ и снижение размерности.
  • неблокирующий Классификация
    Используя пакеты языка R для выбранного датасета требуется провести классификацию.
  • неблокирующий Сбор данных
    Используя пакеты языка R для выбранного сайта требуется собрать данные.
  • неблокирующий Нейронные сети
  • неблокирующий Анализ временных рядов
  • неблокирующий Визуализация данных
    Домашняя работа включает ряд задач, связанных с с подготовкой, визуализацией, анализом данных в R или интерпретацией результатов. Студенты присылают файлы с выполненными заданиями в форматах Rmd и html.
  • неблокирующий Проверка гипотез. Связь между переменными
    Домашняя работа включает ряд задач, связанных с с подготовкой, визуализацией, анализом данных в R или интерпретацией результатов. Студенты присылают файлы с выполненными заданиями в форматах Rmd и html.
  • неблокирующий Линейная регрессия (МНК)
    Домашняя работа включает ряд задач, связанных с с подготовкой, визуализацией, анализом данных в R или интерпретацией результатов. Студенты присылают файлы с выполненными заданиями в форматах Rmd и html.
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 4 модуль
    0.1 * Подготовка данных к анализу + 0.1 * Классификация + 0.1 * Анализ временных рядов + 0.1 * Линейная регрессия (МНК) + 0.1 * Визуализация данных + 0.1 * Проверка гипотез. Связь между переменными + 0.1 * Нейронные сети + 0.1 * Знакомство с R + 0.1 * Кластеризация. Алгоритмы понижения размерности. + 0.1 * Сбор данных
Список литературы

Список литературы

Рекомендуемая основная литература

  • Bruce, P. C., & Bruce, A. (2017). Practical Statistics for Data Scientists : 50 Essential Concepts (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1517577
  • Fuzzy cluster analysis : methods for classification, data analysis and image recognition, Hoppner, F., 2000
  • King, R. S. (2015). Cluster Analysis and Data Mining : An Introduction. Mercury Learning & Information.
  • Performance dashboards : measuring, monitoring, and managing your business, Eckerson, W. W., 2006
  • Principal component analysis, Jolliffe, I. T., 2010
  • R in action : Data analysis and graphics with R, Kabacoff, R. I., 2011
  • Robust cluster analysis and variable selection, Ritter, G., 2015
  • Visualizations and dashboards for learning analytics, , 2021
  • Wickham H. ggplot2: elegant graphics for data analysis. Second edition. Cham: Springer, 2016. 260 p.
  • Мастицкий, С. Э. Визуализация данных с помощью ggplot2 / С. Э. Мастицкий. — Москва : ДМК Пресс, 2017. — 222 с. — ISBN 978-5-97060-470-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/107895 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Мастицкий, С. Э. Статистический анализ и визуализация данных с помощью R / С. Э. Мастицкий, В. К. Шитиков. — Москва : ДМК Пресс, 2015. — 496 с. — ISBN 978-5-97060-301-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73072 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Cluster analysis. Vol.3: Cluster analysis in practice, , 2012

Авторы

  • Паринов Андрей Андреевич
  • Захаров Андрей Борисович