Бакалавриат
2023/2024
Введение в Web Scraping и Data Mining в социальных науках
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Социология)
Направление:
39.03.01. Социология
Кто читает:
Департамент социологии
Где читается:
Факультет социальных наук
Когда читается:
4-й курс, 3 модуль
Формат изучения:
с онлайн-курсом
Онлайн-часы:
20
Охват аудитории:
для своего кампуса
Преподаватели:
Ротмистров Алексей Николаевич
Язык:
русский
Кредиты:
4
Контактные часы:
42
Программа дисциплины
Аннотация
В результате освоения данной учебной дисциплины студенты: - освоят азы программирования в Python, достаточные для автоматизированной выгрузки с практически любых сайтов публичной информации, в т.ч. текстовой - освоят основные понятия и определения, относящимся к большим данным, DM, ОЛМ и ДК - научатся ориентироваться в методах математического объяснения и прогнозирования, выбирать среди них наиболее подходящий для каждой конкретной задачи, корректно применять его, грамотно интерпретировать результаты и формулировать выводы, полезные для их проектной, консалтинговой или аналогичной деятельности - расширят свои знания и навыки применения статистических программных сред MS Excel, Python, SPSS. Изучение данной учебной дисциплины базируется на следующих дисциплинах: - введение в интеллектуальный анализ данных - компьютерные методы анализа социологических данных (или аналогичные дисциплины). Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: • знания о том,… … что такое случайная величина и каковы основные законы её распределения … что такое статистическая гипотеза … каковы типы шкал социологического измерения и их основные свойства … что такое парная и множественная связь и какими методами она измерима … что такое среда программирования Python, каковы основные опции статистических приложений MS Excel и SPSS • умение… … оценивать законы распределения случайных величин … проверять статистические гипотезы … измерять парную и множественную связи … строить простые логические и математические модели для решения содержательных задач в области анализа данных … писать релевантные алгоритмы в Python, задействуя релевантные модули, а также применять релевантные функции MS Excel и SPSS (ряд функций SPSS уникальны и не реализованы в известных модулях Python). Основные положения данной учебной дисциплины могут быть использованы в дальнейшем при изучении следующих дисциплин: - методы анализа больших данных в исследованиях поведения покупателей - научно-исследовательский семинар кафедры методов сбора и анализа социологической информации.
Цель освоения дисциплины
- Учебная дисциплина нацелена на формирование у студентов разносторонних компетенций в области построения прогностических моделей в «трудных» случаях: случаи категориальных переменных (номинальных, порядковых и бинарных) и больших данных. Достижение этого предлагается через решение следующих задач: а. Сопоставление парадигм анализа данных: «конфирматорная» (т.н. Theory-Driven), генетически связанная с эконометрикой и «эксплораторная» (т.н. Data-Driven), генетически связанная с компьютерными науками и с идеями Юла, Тьюки, Симпсона. Обоснование логической связи «эксплораторной» парадигмы с явлением БД б. Рассмотрение структуры Data Mining (часто переводится как «интеллектуальный анализ данных, но этот перевод не точен, поэтому в данной программе название сохранено в англоязычном виде, далее – DM) в социальных науках: как первичного нереактивного измерения, как идеологии работы с собранными данными, как техники углублённого «понимания» респондентов в контексте массовых опросов, как интеллектуального анализа данных в. Освоение алгоритмов веб-скрэпинга (web-scraping) для автоматизированного сбора социальных БД числовой, текстовой и прочих модальностей и последующего построения на этих данных поддающихся интерпретации прогностических моделей г. Изучение и сравнение методов математического объяснения и прогнозирования из класса обобщённых линейных моделей (General, или Generalized, linear models, далее – ОЛМ) и деревьев классификации (Answer trees, или Classification trees, далее – ДК). В частности, изучение критериев качества получаемых посредством этих методов моделей и путей максимизации и балансировки этих критериев.
Планируемые результаты обучения
- Знать источники и форматы социальных больших данных. Уметь пользоваться модулями в среде Python для выгрузки социальных больших данных. Владеть универсальным алгоритмом веб-скрэпинга
- Знать определение Data Mining и больших данных в контексте социальных наук
- Владеть методами построения объяснительных и прогностических моделей, относящихся к ОЛМ и ДК
- Владеть общим алгоритмом построения объяснительных и прогностических моделей
Содержание учебной дисциплины
- Введение. Основы современного Data Mining в социальных науках. Социальные большие данные
- Основы веб-скрэпинга: требуемые основы программной среды Python и универсальный алгоритм веб-скрэпинга
- Структурирование социальных больших данных: построения объяснительных и прогностических моделей
- Общий алгоритм построения объяснительных и прогностических моделей
Элементы контроля
- Активность
- Проект (1-ый этап)
- Проект (2-ой этап)
- Контрольная работа №1
- Контрольная работа №2
- Экзамен
Промежуточная аттестация
- 2023/2024 учебный год 3 модуль0.2 * Активность + 0.125 * Контрольная работа №1 + 0.125 * Контрольная работа №2 + 0.145 * Проект (1-ый этап) + 0.145 * Проект (2-ой этап) + 0.26 * Экзамен
Список литературы
Рекомендуемая основная литература
- Alpaydin, E. (2014). Introduction to Machine Learning (Vol. Third edition). Cambridge, MA: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=836612
- Attewell, P. A., & Monaghan, D. B. (2015). Data Mining for the Social Sciences : An Introduction (Vol. First edition). Oakland, California: University of California Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=967323
- Chu, W. W. (2013). Data Mining and Knowledge Discovery for Big Data : Methodologies, Challenge and Opportunities. Heidelberg: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=643546
- Eagle, N., & Greene, K. (2014). Reality Mining : Using Big Data to Engineer a Better World. Cambridge, Massachusetts: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=826635
- Kollo, T., & World Scientific (Firm). (2013). Multivariate Statistics: Theory And Applications - Proceedings Of The Ix Tartu Conference On Multivariate Statistics And Xx International Workshop On Matrices And Statistics. Singapore: World Scientific. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=689795
- Kotu, V., & Deshpande, B. (2014). Predictive Analytics and Data Mining : Concepts and Practice with RapidMiner. Amsterdam: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=919334
- Larose, D. T., & Larose, C. D. (2015). Data Mining and Predictive Analytics. Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=958471
- Myatt, G. J., & Johnson, W. P. (2014). Making Sense of Data I : A Practical Guide to Exploratory Data Analysis and Data Mining (Vol. Second edition). Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=809795
- Neustein, A. (2014). Text Mining of Web-Based Medical Content. Berlin: De Gruyter. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=887115
Рекомендуемая дополнительная литература
- Kantardzic, M., & Recorded Books, I. (2019). Data Mining : Concepts, Models, Methods, and Algorithms (Vol. Third edition). [Place of publication not identified]: Wiley-IEEE Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2282578