Бакалавриат
2024/2025
Прикладной анализ многомерных и потоковых социально-экономических данных на языке R
Статус:
Курс обязательный (Социология)
Направление:
39.03.01. Социология
Кто читает:
Департамент социологии
Где читается:
Факультет социальных наук
Когда читается:
4-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Пашков Станислав Георгиевич
Язык:
русский
Кредиты:
6
Программа дисциплины
Аннотация
Курс предлагает слушателям углубленное знакомство с основными аспектами работы в статистической среде R (CRAN R), применяемой для решения задач социально-экономических исследований и обработки естественного языка в рамках качественных исследований. В ходе обучения акцентируется внимание на принципах организации программного кода, системах типов данных и основах функционального программирования. Основное внимание уделяется прикладным методам статистического анализа, включая работу с микроданными (социология) и макроданными (социально-экономическая статистика). Рассматриваются актуальные вопросы статистической теории и прикладного анализа данных, введения в Байесовскую статистики. Отдельно рассмотрена теория графов, которая позволяет исследовать возможности количественно-качественных методов обработки структурированных текстовых и сетевых данных. Кроме того, курс охватывает продвинутые методы анализа данных (машинное обучение, алгоритмы кластеризации), вопросы хранения и обработки больших объемов данных с использованием SQL-подходов, на примере реляционных баз данных, таких как SQLite. Слушатели изучат техники предсказательной аналитики, которые помогут в принятии обоснованных решений на основе полученных результатов. В процессе изучения материала акцентируется внимание на организации аналитических процессов ("пайплайнов"), формулировании исследовательских гипотез, выявлении социально-экономических проблем и определении инсайтов для оперативной аналитики. В качестве источников данных рассматриваются массивы социологических данных из ЕАЭСД ВШЭ, RLMS, Росстата, баз данных СМИ.
Цель освоения дисциплины
- Овладеть практическими навыками оперативной обработки данных и построения предварительных гипотез с опорой на используемые в ТЗ предмет и объекты исследования.
- Сформировать практические навыки разработки аналитических процессов и приложений с помощью языка программирования R.
- Получить комплексное представление о том, как организовывать эффективный разведывательный анализ данных и строить содержательные выводы с опорой на полученные данные и применяемые теоретические подходы.
- Расширить представление о "классических" и "трендовых" методах статистической обработки статических и динамических социальных данных (на примере R).
- Освоить принципы кодирования интервью и иного текстового материала при помощи R.
Планируемые результаты обучения
- Знает отличия между моделями эксплораторного и конфирматорного факторного анализа, кластерный анализ, многомерное шкалирование. Умеет проводить эксплораторный факторный анализ.
- Умеет выполнять предобработку данных и разведочный анализ данных с помощью релевантного программного обеспечения
- Осуществляет анализ текстовой информации с использованием технологии Text Mining
- Способен проводить регрессионный анализ и оценивать качество полученных моделей. Знает ограничения и область применения регрессионных моделей.
- Освоение многомерных статистических данных, их представление и обобщающих характеристик
- Владеет общими понятиями базы данных. Владеет понятием СУБД в прикладных системах. Владеет общими понятиями реляционной модели.
- Владеет навыками расчета корреляционных статистик (включая факторный анализ) в R
- Выполняет кластерный анализ и визуализирует результат
- Умеет проводить корреляционно-регрессионный анализ данных
- Формулировка содержательной задачи на text mining и обоснование подходящего для её решения метода.
- Подготовленный для text mining корпус документов, в т.ч. предобработанный.
- Получить системное представление о программном инструментарии, необходимом для выполнения широкого спектра научно-прикладных задач.
- Получить базовое представление о системном устройстве ЭВМ, необходимое для понимания принципов работы ключевого инструментария.
- Получение практических и методических принципов организации процедуры раннего анализа данных.
- Применение навыков ad-hoc постановки задач исследования и выбора расчетных методов ее реализации
- Получение системной и последовательной практики проверки параметрических и непараметрических гипотез для дальнейшего принятия решения по анализу данных.
- Получение практических и методических принципов организации процедуры факторного анализа.
- Получение представления о роли классических и актуальных социологических теорий/подходов в анализе социальных систем и социальных групп.
Содержание учебной дисциплины
- Введение в статистическую среду R
- Гибкий разведочный анализ в среде R (Часть 1)
- Гибкий разведочный анализ в среде R (Часть 2)
- Многомерный анализ центральных тенденций (средних) в среде R
- Факторный/Кластерный анализ (Часть 1)
- Факторный/Кластерный анализ (Часть 2)
- Регрессионный анализ (Часть 1)
- Регрессионный анализ (Часть 2)
- Логика работы с большими данными и централизованными хранилищами | Введение в SQL
- Введение в NLP и методологию автоматизированного сбора данных средствами R
Элементы контроля
- Лабораторная работа №1: Практика написания кода на R + EDAДанная лабораторная работа направлена на выработку практических приемов эффективного статистического анализа данных в статистической среде R. В ходе выполнения лабораторной работы студенты учатся грамотно писать код, осваивают ключевые принципы и особенности использования языка R в анализе социологических данных, а также получают практическое представление о разведочном социологическом анализе.
- Лабораторная работа №2: Кластерный & Факторный анализВ рамках лабораторной работы нарабатываются практические навыки факторного и кластерного анализа. В качестве кейс-стади используются данные Мониторинга финансового поведения населения России. Основное внимание уделяется определению пула исследуемых характеристик для проведения сначала факторого, а затем кластерного анализа.
- Лабораторная работа №3: Регрессионный анализВ рамках лабораторной работы №3 осуществляется закрепление пратики работы с регрессионными моделями в социологических исследованиях. Основное внимание уделено линейным, логистическим. мультиномиальным логистическим моделям. Основой практики выступит РМЭЗ ВШЭ, данные индивидуальных опросников, а также ряд других микроданных.
- Лабораторная работа №4: SQL в решении задач сбора социологических данныхВ рамках лабораторной работы студенты знакомятся с архитектурой реляционных баз данных на примере SQLite (частично -- на примере PostgreSQL).
- Посещение семинаровАктивность на семинаре.
- Групповой проектФинальный групповой проект представляет из себя ТЗ, которое раздается индивидуальной команде студентов для применения всех знаний и практик, полученных в ходе освоения тем 1-10. Студенты выполняют проект на протяжении всего курса, постепенно получая знания, необходимые для успешного выполнения проекта. В качестве предмета проекта выступает презентация и аналитический документ, собранный с помощью инструмента RMarkdown. Оценка учитывает качество проекта, глубину анализа и умение реагировать на критические вопросы условного «Заказчика».
Промежуточная аттестация
- 2024/2025 2nd module0.25 * Групповой проект + 0.15 * Лабораторная работа №1: Практика написания кода на R + EDA + 0.2 * Лабораторная работа №2: Кластерный & Факторный анализ + 0.2 * Лабораторная работа №3: Регрессионный анализ + 0.1 * Лабораторная работа №4: SQL в решении задач сбора социологических данных + 0.1 * Посещение семинаров
Список литературы
Рекомендуемая основная литература
- 9781491981627 - Silge, Julia; Robinson, David - Text Mining with R : A Tidy Approach - 2017 - O'Reilly Media - http://search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=1533983 - nlebk - 1533983
- Crawley, M. J. (2013). The R Book (Vol. Second Edition). Chichester, West Sussex: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=531630
- Fox, J., Jr, & Weisberg, H. S. (2010). An R Companion to Applied Regression. Thousand Oaks: SAGE Publications, Inc. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1236075
- Linoff, G. (2016). Data Analysis Using SQL and Excel: Vol. Second edition. Wiley.
- Malik, U., Goldwasser, M., & Johnston, B. (2019). SQL for Data Analytics : Perform Fast and Efficient Data Analysis with the Power of SQL. Packt Publishing.
- Myatt, G. J., & Johnson, W. P. (2014). Making Sense of Data I : A Practical Guide to Exploratory Data Analysis and Data Mining (Vol. Second edition). Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=809795
- Ren, K. (2016). Learning R Programming. Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1409189
- Robert I. Kabacoff. (2015). R in Action : Data Analysis and Graphics with R: Vol. Second edition. Manning.
Рекомендуемая дополнительная литература
- Juba, S., & Volkov, A. (2019). Learning PostgreSQL 11 : A Beginner’s Guide to Building High-performance PostgreSQL Database Solutions, 3rd Edition (Vol. Third edition). Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2023612
- Machler, M. (2007). Statistics: An Introduction using R, Michael J. Crawley. The American Statistician, 100. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsrep&AN=edsrep.a.bes.amstat.v61y2007mfebruaryp100.101
- Zumel, N. V. (DE-588)1055925899, (DE-627)792891783, (DE-576)41194200X, aut. (2020). Practical data science with R Nina Zumel and John Mount ; foreword by Jeremy Howard and Rachel Thomas.
- Зарова Е.В. - Applied Multivariate Statistical Analysis: Presentations for Lecturing and Working Examples with R=Прикладной многомерный статистический анализ: Презентации для лекций и примеры решений с использованием пакета R - НИЦ ИНФРА-М - 2016 - ISBN: 978-5-16-012133-8 - Текст электронный // ЭБС ZNANIUM - URL: https://znanium.com/catalog/document?id=58218
- Шёниг, Г. -. PostgreSQL 11. Мастерство разработки / Г. -. Шёниг , перевод с английского А. А. Слинкина. — Москва : ДМК Пресс, 2020. — 352 с. — ISBN 978-5-97060-671-1. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131714 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.