• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2021/2022

Data Mining в социальных науках: методы факторизации и кластеризации

Лучший по критерию «Новизна полученных знаний»
Статус: Курс обязательный (Социология)
Направление: 39.03.01. Социология
Когда читается: 4-й курс, 3 модуль
Формат изучения: с онлайн-курсом
Онлайн-часы: 2
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 4
Контактные часы: 38

Программа дисциплины

Аннотация

В результате освоения учебной дисциплины студенты: - научатся ориентироваться в многомерном пространстве методов анализа латентных переменных, выбирать среди них наиболее подходящий для каждой конкретной задачи, корректно применять его, грамотно интерпретировать результаты и формулировать выводы, полезные для их проектной, консалтинговой или аналогичной деятельности; - расширят свои знания и навыки применения статистических программных сред MS Excel, SPSS, Python, R. Изучение учебной дисциплины базируется на следующих дисциплинах: • алгебра и анализ • анализ данных в социологии • анализ и визуализация данных в R • методология и методы социологического исследования • прикладное программное обеспечение • программирование в Python для анализа данных • теория вероятностей и математическая статистика Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: • знания о том,… … что такое случайная величина и каковы основные законы её распределения; … что такое статистическая гипотеза; … каковы типы шкал социологического измерения и их основные свойства; … что такое парная и множественная связь и какими методами она измерима; … что такое среда программирования Python, R, каковы основные опции статистических приложений MS Excel и SPSS; … что такое большие данные; • умение… … оценивать законы распределения случайных величин; … проверять статистические гипотезы; … измерять парную и множественную связи; … строить простые логические и математические модели для решения содержательных задач в области анализа данных; … писать простейшие коды в Python и R, в т.ч. обращаясь и к MS Excel, применять основные аналитические опции статистических приложений SPSS. Основные положения учебной дисциплины должны быть использованы в дальнейшем при изучении следующих дисциплин: - отсутствуют.
Цель освоения дисциплины

Цель освоения дисциплины

  • Учебная дисциплина нацелена на формирование у студентов разносторонних компетенций в области факторизации и кластеризации переменных в «трудных» случаях: случаи категориальных переменных (номинальных, порядковых и бинарных) и больших данных (Big Data, далее – BD). Достижение этого предлагается через решение следующих задач: а. Сопоставление современных парадигм анализа данных: «конфирматорная», Theory-Driven, генетически связанная с эконометрикой и «эксплораторная», Data-Driven, генетически связанная с компьютерными науками и с идеями Юла, Тьюки, Симпсона. Обоснование логической связи «эксплораторной» парадигмы с явлением BD; б. Рассмотрение структуры Data Mining (далее – DM) в социальных науках: как первичного нереактивного измерения, как идеологии работы с собранными данными, как техники углублённого «понимания» респондентов в контексте массовых опросов, как интеллектуального анализа данных; в. Изучение и сравнение видов оцифровки: оцифровка, основанная на линейности связи, на сходстве распределений, на совпадениях категорий; г. Рассмотрение возможностей инферентных (предполагающих проверку нулевых гипотез) выводов из эксплораторных методов.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеть методами оцифровки, факторизации и кластеризации, основанными на линейности связи; основанными на сходстве распределений; основанными на совпадениях категорий
  • Владеть общим алгоритмом тематического моделирования
  • Знать источники и форматы социальных больших данных. Уметь пользоваться модулями в среде Python для выгрузки социальных больших данных. Владеть универсальным алгоритмом веб-скрэпинга
  • Знать определение Data Mining и больших данных в контексте социальных наук
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение. Основы современного Data Mining в социальных науках. Социальные большие данные
  • Основы веб-скрэпинга: требуемые основы программной среды Python и универсальный алгоритм веб-скрэпинга
  • Структурирование социальных больших данных: оцифровка, факторизация и кластеризация
  • Общий алгоритм тематического моделирования
Элементы контроля

Элементы контроля

  • неблокирующий активность на занятиях
  • неблокирующий домашние работы
  • неблокирующий контрольные работы
  • неблокирующий экзамен
  • неблокирующий активность на занятиях
  • неблокирующий домашние работы
  • неблокирующий контрольные работы
  • неблокирующий экзамен
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 3 модуль
    0.25 * контрольные работы + 0.26 * экзамен + 0.2 * активность на занятиях + 0.29 * домашние работы
Список литературы

Список литературы

Рекомендуемая основная литература

  • Alpaydin, E. (2014). Introduction to Machine Learning (Vol. Third edition). Cambridge, MA: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=836612
  • Attewell, P. A., & Monaghan, D. B. (2015). Data Mining for the Social Sciences : An Introduction (Vol. First edition). Oakland, California: University of California Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=967323
  • Kollo, T., & World Scientific (Firm). (2013). Multivariate Statistics: Theory And Applications - Proceedings Of The Ix Tartu Conference On Multivariate Statistics And Xx International Workshop On Matrices And Statistics. Singapore: World Scientific. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=689795
  • Larose, D. T., & Larose, C. D. (2015). Data Mining and Predictive Analytics. Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=958471

Рекомендуемая дополнительная литература

  • Chu, W. W. (2013). Data Mining and Knowledge Discovery for Big Data : Methodologies, Challenge and Opportunities. Heidelberg: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=643546
  • Eagle, N., & Greene, K. (2014). Reality Mining : Using Big Data to Engineer a Better World. Cambridge, Massachusetts: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=826635
  • Kotu, V., & Deshpande, B. (2014). Predictive Analytics and Data Mining : Concepts and Practice with RapidMiner. Amsterdam: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=919334
  • Myatt, G. J., & Johnson, W. P. (2014). Making Sense of Data I : A Practical Guide to Exploratory Data Analysis and Data Mining (Vol. Second edition). Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=809795
  • Neustein, A. (2014). Text Mining of Web-Based Medical Content. Berlin: De Gruyter. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=887115

Авторы

  • Ротмистров Алексей Николаевич