• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2023/2024

Прикладной анализ многомерных и потоковых социально-экономических данных на языке R

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Курс обязательный (Социология)
Направление: 39.03.01. Социология
Когда читается: 4-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 6
Контактные часы: 48

Программа дисциплины

Аннотация

Курс знакомит слушателей с ключевыми аспектами профессиональной работы в статистической среде R (CRAN R) при выполнении задач социально-экономического (количественного) исследования и задач естественной обработки языка в рамках качественного исследования. В рамках курса последовательно освещаются базовые принципы организации программного кода на данном языке, системам типов данных, основам функционального программирования. Небольшое внимание уделяется вопросам хранения и обработки больших объемов данных (Big Data) с использованием SQL-подходов (реляционных баз данных на примере PostgreSQL). Большую часть курса слушатели изучают прикладные методы статистического анализа микроданных (социология) и макроданных (социально-экономическая статистика), включая классические методы статистической теории, эконометрического анализа, некоторых аспектов Байесовской статистики и теории графов (в рамках исследования возможностей количественно-качественных методов обработки структурированных текстовых данных). В ходе изучения материала уделяется внимание организации процесса аналитики ("пайплайнов") с включением исследовательских гипотез, идентификации социально-экономических исследовательских проблем и определения инсайтов для выработки принципов оперативной аналитики. В качестве источников данных рассматриваются массивы социологических данных, размещенных в ЕАЭСД ВШЭ, RLMS, Росстата, Public.Ru.
Цель освоения дисциплины

Цель освоения дисциплины

  • Приобрести представление о модели организации анализа данных для получения оперативных и детальных результатов на основе полученных данных.
  • Приобрести навыки программирования на языке R.
  • Научиться выполнять комплексный анализ социологических данных, проводить глубинный анализ результатов.
  • Освоить принципы кодирования интервью и иного текстового материала при помощи R.
  • Выработать навыки работы в команде для последующей презентации результатов в рамках поставленного ТЗ.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает отличия между моделями эксплораторного и конфирматорного факторного анализа, кластерный анализ, многомерное шкалирование. Умеет проводить эксплораторный факторный анализ.
  • Умеет выполнять предобработку данных и разведочный анализ данных с помощью релевантного программного обеспечения
  • Осуществляет анализ текстовой информации с использованием технологии Text Mining
  • Способен проводить регрессионный анализ и оценивать качество полученных моделей. Знает ограничения и область применения регрессионных моделей.
  • Освоение многомерных статистических данных, их представление и обобщающих характеристик
  • Владеет общими понятиями базы данных. Владеет понятием СУБД в прикладных системах. Владеет общими понятиями реляционной модели.
  • Владеет навыками расчета корреляционных статистик (включая факторный анализ) в R
  • Выполняет кластерный анализ и визуализирует результат
  • Умеет проводить корреляционно-регрессионный анализ данных
  • Формулировка содержательной задачи на text mining и обоснование подходящего для её решения метода.
  • Подготовленный для text mining корпус документов, в т.ч. предобработанный.
  • Имеет представление о классификации вычислительных систем, об основных направлениях совершенствования архитектур и общих принципах построения высокопроизводительных систем.
  • Получить системное представление о программном инструментарии, необходимом для выполнения широкого спектра научно-прикладных задач.
  • Получить базовое представление о системном устройстве ЭВМ, необходимое для понимания принципов работы ключевого инструментария.
  • Получение практических и методических принципов организации процедуры раннего анализа данных.
  • Применение навыков ad-hoc постановки задач исследования и выбора расчетных методов ее реализации
  • Получение системной и последовательной практики проверки параметрических и непараметрических гипотез для дальнейшего принятия решения по анализу данных.
  • Получение практических и методических принципов организации процедуры факторного анализа.
  • Получение представления о роли классических и актуальных социологических теорий/подходов в анализе социальных систем и социальных групп.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в статистическую среду R
  • Гибкий разведочный анализ в среде R — 1
  • Гибкий разведочный анализ в среде R — 2
  • Многомерный анализ центральных тенденций (средних) в среде R
  • Факторный анализ
  • Кластерный анализ
  • Регрессионный анализ — 1
  • Регрессионный анализ — 2
  • Введение в теорию графов и SNA в R
  • Введение в NLP и методологию автоматизированного сбора данных средствами R
  • Введение в HPC (высокопроизводительные вычисления) с помощью R
  • Логика работы с большими данными и централизованными хранилищами | введение в SQL
Элементы контроля

Элементы контроля

  • неблокирующий Посещение семинаров
    Посещение семинаров необходимо для получения комплексного понимания материала, а также возможности отслеживания качества усвоения. Предполагается, что из 12 тем обязательными являются первые 10, по которым и будет вестись учёт посещения по формуле «1 посещение = 1 балл». Всего можно набрать 10 баллов. Темы 11 & 12 являются факультативными, по ним учет вестись не будет.
  • неблокирующий Лабораторная работа — 1
    Лабораторная работа №1 посвящена темам 2-3. Предполагается, что в день анонса Лабораторной работы студенты начинают выполнять первые задания (минимальное число баллов для сдачи работы) с преподавателем, а затем дома проводят самостоятельную работу над заданиями.
  • неблокирующий Лабораторная работа — 2
    Лабораторная работа №3 посвящена теме 10. Предполагается, что в день анонса Лабораторной работы студенты начинают выполнять первые задания (минимальное число баллов для сдачи работы) с преподавателем, а затем дома проводят самостоятельную работу над заданиями.
  • неблокирующий Лабораторная работа — 3
    Лабораторная работа №3 посвящена темам 7-9. Предполагается, что в деть анонса Лабораторной работы студенты начинают выполнять первые задания (минимальное число баллов для сдачи работы) с преподавателем, а затем дома проводят самостоятельную работу над заданиями.
  • неблокирующий Лабораторная работа -- 4
    Лабораторная работа №3 посвящена теме 10. Предполагается, что в деть анонса Лабораторной работы студенты начинают выполнять первые задания (минимальное число баллов для сдачи работы) с преподавателем, а затем дома проводят самостоятельную работу над заданиями.
  • неблокирующий Групповой проект
    Финальный групповой проект представляет из себя ТЗ, которое раздается индивидуальной команде студентов для применения всех знаний и практик, полученных в ходе освоения тем 1-10. Студенты выполняют проект на протяжении всего курса, постепенно получая знания, необходимые для успешного выполнения проекта. В качестве предмета проекта выступает презентация и аналитический документ, собранный с помощью инструмента RMarkdown. Оценка учитывает качество проекта, глубину анализа и умение реагировать на критические вопросы условного «Заказчика».
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 2 модуль
    0.2 * Групповой проект + 0.15 * Лабораторная работа -- 4 + 0.1 * Лабораторная работа — 1 + 0.2 * Лабораторная работа — 2 + 0.25 * Лабораторная работа — 3 + 0.1 * Посещение семинаров
Список литературы

Список литературы

Рекомендуемая основная литература

  • Crawley, M. J. (2013). The R Book (Vol. Second Edition). Chichester, West Sussex: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=531630
  • Eric D. Kolaczyk, & Gábor Csárdi. (2020). Statistical Analysis of Network Data with R: Vol. 2nd ed. Springer.
  • Etaner-Uyar, A. S., & Gündüz-Ögüdücü, S. (2014). Social Networks: Analysis and Case Studies. Wien: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=812923
  • Fox, J., Jr, & Weisberg, H. S. (2010). An R Companion to Applied Regression. Thousand Oaks: SAGE Publications, Inc. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1236075
  • Linoff, G. (2016). Data Analysis Using SQL and Excel: Vol. Second edition. Wiley.
  • Malik, U., Goldwasser, M., & Johnston, B. (2019). SQL for Data Analytics : Perform Fast and Efficient Data Analysis with the Power of SQL. Packt Publishing.
  • Myatt, G. J., & Johnson, W. P. (2014). Making Sense of Data I : A Practical Guide to Exploratory Data Analysis and Data Mining (Vol. Second edition). Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=809795
  • Ren, K. (2016). Learning R Programming. Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1409189
  • Robert I. Kabacoff. (2015). R in Action : Data Analysis and Graphics with R: Vol. Second edition. Manning.
  • Silge, J., & Robinson, D. (2017). Text Mining with R : A Tidy Approach (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1533983

Рекомендуемая дополнительная литература

  • AlFalahi, K., Atif, Y., & Abraham, A. (2014). Models of Influence in Online Social Networks. International Journal of Intelligent Systems, 29(2), 161–183. https://doi.org/10.1002/int.21631
  • Juba, S., & Volkov, A. (2019). Learning PostgreSQL 11 : A Beginner’s Guide to Building High-performance PostgreSQL Database Solutions, 3rd Edition (Vol. Third edition). Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2023612
  • Machler, M. (2007). Statistics: An Introduction using R, Michael J. Crawley. The American Statistician, 100. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsrep&AN=edsrep.a.bes.amstat.v61y2007mfebruaryp100.101
  • Pozzi F. et. al. Sentiment Analysis in Social Networks. - Morgan Kaufmann Publishers, 2016. - ЭБС Books 24x7.
  • Zumel, N. V. (DE-588)1055925899, (DE-627)792891783, (DE-576)41194200X, aut. (2020). Practical data science with R Nina Zumel and John Mount ; foreword by Jeremy Howard and Rachel Thomas.
  • Зарова Е.В. - Applied Multivariate Statistical Analysis: Presentations for Lecturing and Working Examples with R=Прикладной многомерный статистический анализ: Презентации для лекций и примеры решений с использованием пакета R - НИЦ ИНФРА-М - 2016 - ISBN: 978-5-16-012133-8 - Текст электронный // ЭБС ZNANIUM - URL: https://znanium.com/catalog/document?id=58218
  • Шёниг, Г. -. PostgreSQL 11. Мастерство разработки / Г. -. Шёниг , перевод с английского А. А. Слинкина. — Москва : ДМК Пресс, 2020. — 352 с. — ISBN 978-5-97060-671-1. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131714 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.