Введение в Web Scraping и Data Mining в социальных науках

Бакалавриат 2023/2024

Лучший по критерию «Новизна полученных знаний»

Статус: Курс обязательный (Социология)

Направление: 39.03.01. Социология

Кто читает: Департамент социологии

Где читается: Факультет социальных наук

Когда читается: 4-й курс, 3 модуль

Формат изучения: с онлайн-курсом

Онлайн-часы: 20

Охват аудитории: для своего кампуса

Преподаватели: Ротмистров Алексей Николаевич

Язык: русский

Кредиты: 4

Контактные часы: 42

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

В результате освоения данной учебной дисциплины студенты: - освоят азы программирования в Python, достаточные для автоматизированной выгрузки с практически любых сайтов публичной информации, в т.ч. текстовой - освоят основные понятия и определения, относящимся к большим данным, DM, ОЛМ и ДК - научатся ориентироваться в методах математического объяснения и прогнозирования, выбирать среди них наиболее подходящий для каждой конкретной задачи, корректно применять его, грамотно интерпретировать результаты и формулировать выводы, полезные для их проектной, консалтинговой или аналогичной деятельности - расширят свои знания и навыки применения статистических программных сред MS Excel, Python, SPSS. Изучение данной учебной дисциплины базируется на следующих дисциплинах: - введение в интеллектуальный анализ данных - компьютерные методы анализа социологических данных (или аналогичные дисциплины). Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: • знания о том,… … что такое случайная величина и каковы основные законы её распределения … что такое статистическая гипотеза … каковы типы шкал социологического измерения и их основные свойства … что такое парная и множественная связь и какими методами она измерима … что такое среда программирования Python, каковы основные опции статистических приложений MS Excel и SPSS • умение… … оценивать законы распределения случайных величин … проверять статистические гипотезы … измерять парную и множественную связи … строить простые логические и математические модели для решения содержательных задач в области анализа данных … писать релевантные алгоритмы в Python, задействуя релевантные модули, а также применять релевантные функции MS Excel и SPSS (ряд функций SPSS уникальны и не реализованы в известных модулях Python). Основные положения данной учебной дисциплины могут быть использованы в дальнейшем при изучении следующих дисциплин: - методы анализа больших данных в исследованиях поведения покупателей - научно-исследовательский семинар кафедры методов сбора и анализа социологической информации.

Цель освоения дисциплины

Учебная дисциплина нацелена на формирование у студентов разносторонних компетенций в области построения прогностических моделей в «трудных» случаях: случаи категориальных переменных (номинальных, порядковых и бинарных) и больших данных. Достижение этого предлагается через решение следующих задач: а. Сопоставление парадигм анализа данных: «конфирматорная» (т.н. Theory-Driven), генетически связанная с эконометрикой и «эксплораторная» (т.н. Data-Driven), генетически связанная с компьютерными науками и с идеями Юла, Тьюки, Симпсона. Обоснование логической связи «эксплораторной» парадигмы с явлением БД б. Рассмотрение структуры Data Mining (часто переводится как «интеллектуальный анализ данных, но этот перевод не точен, поэтому в данной программе название сохранено в англоязычном виде, далее – DM) в социальных науках: как первичного нереактивного измерения, как идеологии работы с собранными данными, как техники углублённого «понимания» респондентов в контексте массовых опросов, как интеллектуального анализа данных в. Освоение алгоритмов веб-скрэпинга (web-scraping) для автоматизированного сбора социальных БД числовой, текстовой и прочих модальностей и последующего построения на этих данных поддающихся интерпретации прогностических моделей г. Изучение и сравнение методов математического объяснения и прогнозирования из класса обобщённых линейных моделей (General, или Generalized, linear models, далее – ОЛМ) и деревьев классификации (Answer trees, или Classification trees, далее – ДК). В частности, изучение критериев качества получаемых посредством этих методов моделей и путей максимизации и балансировки этих критериев.

Планируемые результаты обучения

Знать источники и форматы социальных больших данных. Уметь пользоваться модулями в среде Python для выгрузки социальных больших данных. Владеть универсальным алгоритмом веб-скрэпинга
Знать определение Data Mining и больших данных в контексте социальных наук
Владеть методами построения объяснительных и прогностических моделей, относящихся к ОЛМ и ДК
Владеть общим алгоритмом построения объяснительных и прогностических моделей

Содержание учебной дисциплины

Введение. Основы современного Data Mining в социальных науках. Социальные большие данные
Основы веб-скрэпинга: требуемые основы программной среды Python и универсальный алгоритм веб-скрэпинга
Структурирование социальных больших данных: построения объяснительных и прогностических моделей
Общий алгоритм построения объяснительных и прогностических моделей

Элементы контроля

Активность
Проект (1-ый этап)
Проект (2-ой этап)
Контрольная работа №1
Контрольная работа №2
Экзамен

Промежуточная аттестация

2023/2024 учебный год 3 модуль
0.2 * Активность + 0.125 * Контрольная работа №1 + 0.125 * Контрольная работа №2 + 0.145 * Проект (1-ый этап) + 0.145 * Проект (2-ой этап) + 0.26 * Экзамен

Список литературы

Авторы

Ротмистров Алексей Николаевич
Десятова Мария Ивановна

Программа дисциплины

Программа дисциплины

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература

Авторы