• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2023/2024

Майнинг данных и машинное обучение в социальных науках

Лучший по критерию «Новизна полученных знаний»
Статус: Маго-лего
Когда читается: 3, 4 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Кредиты: 6
Контактные часы: 72

Программа дисциплины

Аннотация

"Большие данные из социальных медиа: сбор и разведочный анализ" Цель учебной дисциплины: научить студентов ставить содержательные социологические задачи с учётом актуального состояния методологии цифровых и вычислительных социальных наук и решать эти задачи – полностью или частично посредством этой методологии. В результате студенты (а) сами ставят такие задачи и решают их; (б) общаются с подрядчиками-программистами на одном языке; встраивают работу программистов в собственные исследовательские процессы, от этапа концептуализации до этапа интерпретации; (в) понимают программистские схемы и границы их применимости; под эти границы итеративно адаптируют собственные концептуализацию и интерпретацию. Как достигаются эта цель и результаты? (а) Освоением крупных блоков методологического и программистского материала в персональном темпе (асинхронным освоением), (б) освоением методологических и программистских нюансов в формате мини-лекций (синхронным освоением), (в) персонализированными содержательными задачами (в рамках мини-проектов), (г) персональным обсуждением возникающих вопросов и затруднений с преподавателем. Уч.дисциплина может идти очно и дистанционно, но обязательно с применением онлайн-ведомости, асинхронной и синхронной подачи материала (учебных видео на YouTube и мии-лекций), дистанционной коммуникации (сервис webinar.ru ) – и, естественно, десктопа или лэптопа, а не смартфона или планшета. Занятия строятся на примерах из исследований ценностно- и поведенческо- формирующей роли YouTube на примере экологически ответственного отношения к бытовым отходам и восприятия аудиторией новых персонажей рекламных роликов МТС. Опираясь на примеры из учебных видео, студенты придумывают собственные мини-проекты и, в идеале, частично выполняют эти мини-проекты на каждом занятии. В дополнение к занятиям студенты самостоятельно дорабатывают свои мини-проекты и оформляют промежуточные и итоговые результаты мини-проектов.
Цель освоения дисциплины

Цель освоения дисциплины

  • Научить студентов ставить содержательные социологические задачи с учётом актуального состояния методологии цифровых и вычислительных социальных наук и решать эти задачи – полностью или частично посредством этой методологии
Планируемые результаты обучения

Планируемые результаты обучения

  • Устанавливает сборку Anaconda, запускает и использует Jupyter Notebook, пишет простую программу на Python.
  • Умение посредством Python правильно авторизоваться в YouTube, создать клиент API YouTube и применить его для веб-скрапинга изучаемого YouTube-канала.
  • Формулировки примерной тематики проекта и краткого исследовательского вопроса.
  • Мини-программа исследования (источник(и) данных, индикаторы, методы анализа).
  • Скрипт на Python для сбора доступных данных из согласованных веб-источников и оформления их в формате датафрейма и экселевского файла.
  • Описание всей совокупности найденного контента в разрезе содержательно значимых его характеристик.
  • Выявление среди всей совокупности релевантного контента отдельных объектов, хорошо репрезентирующих его.
  • Выявление парных связей содержательно значимых характеристик релевантного контента.
  • Формулировка содержательной задачи на text mining и обоснование подходящего для её решения метода.
  • Подготовленный для text mining корпус документов, в т.ч. предобработанный.
  • Список высокочастотных токенов и их интерпретация в контексте всего проекта.
  • Список интерпретируемых топиков и их интерпретация в контексте всего проекта.
  • Скрипт на Python для решения задач раздела.
  • Проверка релевантности найденного контента.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Установочный
  • Сбор данных
  • Первичный анализ данных
  • Text mining
Элементы контроля

Элементы контроля

  • неблокирующий контрольные работы в формате решения практических задач
  • неблокирующий домашние работы в проектном формате с презентациями (по возможности, очными)
  • неблокирующий экзамен в формате теста
  • неблокирующий активность на занятиях
    актуальна только для участников занятия; оценивается на занятии или в течение недели после занятия; студент получает до 8 баллов за решение обязательных задач (лист “Темы и материалы”) и до +2 баллов – за ответы на дополнительные вопросы и за инициативную работу сверх задач
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 4 модуль
    0.077 * активность на занятиях + 0.123 * активность на занятиях + 0.095 * домашние работы в проектном формате с презентациями (по возможности, очными) + 0.195 * домашние работы в проектном формате с презентациями (по возможности, очными) + 0.25 * контрольные работы в формате решения практических задач + 0.26 * экзамен в формате теста
Список литературы

Список литературы

Рекомендуемая основная литература

  • Computational social science : discovery and prediction, Alvarez, R. M., 2016
  • Kalvas, F. (2015). Introduction to Computational Social Science: Principles and Applications (Texts in Computer Science). Journal of Artificial Societies & Social Simulation, 18(1), 1. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=sih&AN=101774343
  • Lazer, D., Pentland, A., Adamic, L., Aral, S., Barabási, A.-L., Brewer, D., … Van Alstyne, M. (2009). Computational Social Science. Science, 323(5915), 721–723. https://doi.org/10.1126/science.1167742

Рекомендуемая дополнительная литература

  • Chen, S.-H. (2018). Big Data in Computational Social Science and Humanities. Cham, Switzerland: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1944799