Data Mining в социальных науках: методы факторизации и кластеризации

Бакалавриат 2020/2021

Лучший по критерию «Новизна полученных знаний»

Статус: Курс обязательный (Социология)

Направление: 39.03.01. Социология

Кто читает: Департамент социологии

Где читается: Факультет социальных наук

Когда читается: 4-й курс, 3 модуль

Формат изучения: с онлайн-курсом

Преподаватели: Жучкова Светлана Васильевна, Ротмистров Алексей Николаевич

Язык: русский

Кредиты: 4

Контактные часы: 38

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

В результате освоения учебной дисциплины студенты: - научатся ориентироваться в многомерном пространстве методов анализа латентных переменных, выбирать среди них наиболее подходящий для каждой конкретной задачи, корректно применять его, грамотно интерпретировать результаты и формулировать выводы, полезные для их проектной, консалтинговой или аналогичной деятельности; - расширят свои знания и навыки применения статистических программных сред MS Excel, SPSS, Python, R. Изучение учебной дисциплины базируется на следующих дисциплинах: • алгебра и анализ • анализ данных в социологии • анализ и визуализация данных в R • методология и методы социологического исследования • прикладное программное обеспечение • программирование в Python для анализа данных • теория вероятностей и математическая статистика Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: • знания о том,… … что такое случайная величина и каковы основные законы её распределения; … что такое статистическая гипотеза; … каковы типы шкал социологического измерения и их основные свойства; … что такое парная и множественная связь и какими методами она измерима; … что такое среда программирования Python, R, каковы основные опции статистических приложений MS Excel и SPSS; … что такое большие данные; • умение… … оценивать законы распределения случайных величин; … проверять статистические гипотезы; … измерять парную и множественную связи; … строить простые логические и математические модели для решения содержательных задач в области анализа данных; … писать простейшие коды в Python и R, в т.ч. обращаясь и к MS Excel, применять основные аналитические опции статистических приложений SPSS. Основные положения учебной дисциплины должны быть использованы в дальнейшем при изучении следующих дисциплин: - отсутствуют.

Цель освоения дисциплины

Учебная дисциплина нацелена на формирование у студентов разносторонних компетенций в области факторизации и кластеризации переменных в «трудных» случаях: случаи категориальных переменных (номинальных, порядковых и бинарных) и больших данных (Big Data, далее – BD). Достижение этого предлагается через решение следующих задач: а. Сопоставление современных парадигм анализа данных: «конфирматорная», Theory-Driven, генетически связанная с эконометрикой и «эксплораторная», Data-Driven, генетически связанная с компьютерными науками и с идеями Юла, Тьюки, Симпсона. Обоснование логической связи «эксплораторной» парадигмы с явлением BD; б. Рассмотрение структуры Data Mining (далее – DM) в социальных науках: как первичного нереактивного измерения, как идеологии работы с собранными данными, как техники углублённого «понимания» респондентов в контексте массовых опросов, как интеллектуального анализа данных; в. Изучение и сравнение видов оцифровки: оцифровка, основанная на линейности связи, на сходстве распределений, на совпадениях категорий; г. Рассмотрение возможностей инферентных (предполагающих проверку нулевых гипотез) выводов из эксплораторных методов.

Планируемые результаты обучения

Знать определение Data Mining и больших данных в контексте социальных наук
Знать источники и форматы социальных больших данных. Уметь пользоваться модулями в среде Python для выгрузки социальных больших данных. Владеть универсальным алгоритмом веб-скрэпинга
Владеть методами оцифровки, факторизации и кластеризации, основанными на линейности связи; основанными на сходстве распределений; основанными на совпадениях категорий
Владеть общим алгоритмом тематического моделирования

Содержание учебной дисциплины

Введение. Основы современного Data Mining в социальных науках. Социальные большие данные
Основы современного Data Mining в социальных наукахОсновы современного Data Mining в социальных науках: эксплораторность, большие данные, программирование Парадигмы анализа данных: «конфирматорная» и «эксплораторная»: история конкуренции и современное состояние. Идеи Дж.О. Юла, Э. Симпсона и Дж. Тьюки. Влияние на анализ данных появления нереактивных данных и больших данных. Перенос подходов Data Mining (далее – DM) из компьютерных наук в социальные. Определение DM в социальных науках: • DM как первичное нереактивное измерение – прежде всего в онлайн-среде (web scraping); • DM как идеология работы с собранными данными, лежащая в основе эксплораторного дизайна исследования в противовес конфирматорному дизайну; • DM как техники углублённого «понимания» респондентов в контексте массовых опросов. Под «пониманием» респондентов подразумевается адаптация исследовательских шкал под имеющиеся ответы респондентов для более насыщенной интерпретации этих ответов. Оцифровка – одна из процедур такой адаптации; • DM как интеллектуальный анализ данных, т.е. анализ, предполагающий разработку уникального методно-аналитического комплекса под каждую сложную аналитическую задачу. Уникальность состоит в учёте множества логических развилок на пути решения сложной задачи и обоснованном выборе более подходящей ветви в рамках каждой развилки; в возврате к предыдущей развилке в случае неудовлетворительно результата ранее выбранной развилки; в итеративности таких выборов и возвратов. Под сложной задачей понимается задача, включающая много содержательных слоёв, или уровней, каждый из которых требует содержательной интерпретации. Специфика социальных больших данных Специфика применения DM к социальным большим данным по сравнению с ситуацией в компьютерных науках: • в социальных науках при обычном (реактивном) сборе данных в большей мере используются категориальные шкалы, тогда как большие данные обычно организованы в формате метрических и бинарных переменных. Кроме того, в социальных больших данных тоже есть место для категориальных шкал: категориальными шкалами обычно выражается экспертная оценка, с которой как с эталоном (т.н. учитель, или словарь) машина соотносит собираемые данные; • в компьютерных науках модели должны иметь прогностическую силу (величину, обратную Loss) не ниже 0,9. Такая прогностическая сила достигается даже в ущерб непереобученности (overfitting) модели. Это не удивительно, т.к., во-первых, большие данные в компьютерных науках – это обычно и есть генеральная совокупность, и, во-вторых, практические задачи в компьютерных науках требуют крайне высокой точности: скажем, распознать образ на 50% – это не распознать его вовсе. Обратной стороной смещения баланса между прогностической силой и непереобученностью модели является риск неработоспособности модели за пределами больших данных, на которых она построена; • в компьютерных науках в погоне за высокой прогностической силой из исходных переменных создаются новые, зачастую многомерные, переменные (т.н. feature engineering), которые затруднительно или невозможно интерпретировать (т.н. принцип чёрного ящика в машинном обучении). В эконометрике и социальных науках есть отчасти аналогичный процесс – создание многомерных эффектов взаимодействия, но к эффектам взаимодействия предъявляется строго требование интерпретируемости. Таким образом, формулировку баланса «прогностическая сила – непереобученность», к которому следует стремиться в социальных науках, можно дополнить в следующем ключе: «прогностическая сила – непереобученность и интерпретируемость»; • в компьютерных и социальных науках разный язык касательно области анализа данных. Основные источники социальных больших данных: • «обычные» веб-сайты (не имеют собственных API), • социальные сети (имеют собственные API). Основные форматы социальных больших данных: • файлы форматов txt, csv, xls, sav, • данные в форматах json, xml.
Основы веб-скрэпинга: требуемые основы программной среды Python и универсальный алгоритм веб-скрэпинга
Ограничения веб-скрэпинга: • проблемы архитектуры изучаемых сайтов, • необходимость авторизации, • прямой запрет, указанный на станицах формата */robots.txt Фреймворки, модули, классы и методы программной среды Python для веб-скрэпинга: • фреймворк scrapy https://docs.scrapy.org/en/latest/ • модуль requests http://docs.python-requests.org/en/master/ • класс BeautifulSoup https://www.crummy.com/software/BeautifulSoup/bs4/doc/ Фреймворки, модули, классы и методы программной среды Python для структурирования больших данных, факторизации и кластеризации: • модуль pandas https://pandas.pydata.org/ • модуль sklearn http://scikit-learn.org/stable/ • модуль statsmodels http://www.statsmodels.org/ • модуль prince https://github.com/MaxHalford/prince Универсальный алгоритм веб-скрэпинга 1. Выгрузка неструктурированной информации с одной нединамической интернет-страницы. 2. Цикл для перехода между блоками html-кода. 3. Выгрузка неструктурированной информации с нескольких нединамических интернет-страниц. Ориентиры и циклы для перехода между страницами 4. Запись выгруженной информации в словарь и в data frame 5. Токенизация и лемматизация текстовой информации
Структурирование социальных больших данных: оцифровка, факторизация и кластеризация
Роль методов факторизации и кластеризации в системе DM Сжать объём информации для формирования и корректировки аналитической траектории. Методы кластеризации (объединение многих объектов в немногие однородные группы, описываемые значениями интегральной переменной) – разновидность методов факторизации (объединения многих переменных в немногие однородные группы, описываемые соответствующим числом интегральных переменных), для которой характерна единственная интегральная (латентная) переменная категориального типа. Методы факторизации сформировались на основе идей шкалирования – эксплораторных по своей сути. До сих пор большинство методов факторизации и кластеризации не предполагают инферентные (основанные на проверке статистических гипотез) выводы и в этом смысле выполняют сугубо разведочную роль. Эту роль нельзя переоценить, поскольку в русле DM исследователь принимает решения о формировании и корректировке аналитической траектории преимущественно на основании информации обозримого объёма, а методы факторизации и кластеризации как раз и направлены на сжатие объёма информации. С другой стороны, следует постепенно вводить в состав многих методов факторизации и кластеризации алгоритмы инферентной оценки получаемых моделей для более надёжной их оценки, что не противоречит идеям эксплораторной парадигмы. В качестве примера предлагается рассмотреть введение регрессионного моделирования и критерия Lack-of-Fit для оценки качества моделей, построенных методом главных компонент и методом кластеризации К-средних. Эти методы выбраны как наиболее популярные в социальных науках методы факторизации и кластеризации соответственно. Роль оцифровки в системе DM Факторизация и кластеризация категориальных переменных и «понимающая» парадигма в количественном воплощении. Оцифровка – одна из процедур адаптации исследовательских шкал под имеющиеся ответы респондентов для более насыщенной интерпретации этих ответов. Одновременно оцифровка – основа методов факторизации и кластеризации категориальных переменных. Изучение и сравнение видов оцифровки: оцифровка, основанная на линейности связи, оцифровка, основанная на сходстве распределений (пример – метод анализа соответствий и метод 2-ступенчатого кластерного анализа), оцифровка, основанная на совпадениях категорий (пример – метод Jaccard, Yule’s, Phi, Lambda).
Общий алгоритм тематического моделирования
1. Превращение подготовленных текстовых данных (токенизированных, лемматизированных и без стоп-слов) в матрицу «документ-токен» (векторизация): • модуль scikit-learn https://scikit-learn.org/stable/ А также в формат vowpal wabbit: • модуль artm http://docs.bigartm.org/ 2. Выявление тем (связанных между собой токенов) посредством алгоритма CatPCA. Предварительная интерпретация тем / Выявление связанных между собой токенов (тем) посредством алгоритма ARTM. Предварительная интерпретация тем. 3. Выявление документов, наиболее репрезентирующих каждую тему. Итоговая интерпретация тем