• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Применение методов автоматической обработки языка для исследования освещения межэтнических отношений и других социально-проблемных тем в больших массивах пользовательских текстовApplying Automatic Language Processing To Investigate The Coverage Of Inter-Ethnic Relations And Other Socially Problematic Topics In Large Collections Of User-Generated Texts

Члены комитета:
Колмогорова Анастасия Владимировна (Национальный исследовательский университет «Высшая школа экономики», д-р филол. наук, председатель комитета), Белоусов Константин Игоревич (Пермский государственный национальный исследовательский университет, д-р филол. наук, член комитета), Литвинова Татьяна Александровна (Воронежский государственный педагогических университет, д-р филол. наук, член комитета), Лукашевич Наталья Валентиновна (Московский государственный университет им. М.В. Ломоносова, д-р тех. наук, член комитета), Панченко Александр Иванович (Сколковский институт науки и технологий, PhD, член комитета)
Диссертация принята к предварительному рассмотрению:
2/2/2024
Диссертация принята к защите:
3/4/2024
Дисс. совет:
Совет по филологии
Дата защиты:
4/23/2024
Диссертация посвящена разработке методологии автоматического анализа письменной речи на русском языке для социологических задач, с фокусом на анализ репрезентаций этнических групп и межэтнических отношений в текстах социальных медиа. В работе тестируется применимость обширного набора новых вариаций алгоритмов машинного обучения к интерпретируемому анализу этих репрезентаций. Алгоритмы представлены двумя группами: тематическое моделирование, направленное на выявление имплицитных контекстов упоминания этнических групп и отношений между ними, и алгоритмы классификации, направленные на выявление заранее заданных классов отношений к этническим группам.  Алгоритмы тестируются на большом наборе специально созданных датасетов из сообщений социальных сетей, часть из которых размечена на категории, обоснованные социологическими теориями межэтнических отношений (включая язык вражды). В работе установлено, что на коллекциях, не обогащенных этнорелевантными текстами, тематическое моделирование эффективно только с частичным обучением, причем наиболее эффективно обучение на основе специально составленного словаря этнонимов. На обогащенных коллекциях обучение не требуется, однако при этом может происходить потеря текстов с имплицитным освещением тематики этничности. Также установлено, что классификация сообщений на классы уровня текста, такие как «наличие межэтнического конфликта», легко решается стандартными классификационными методами, тогда как задача классификации отношений к отдельным этническим группам в тексте требует работы на уровне вхождения именованной сущности «этическая группа» в текст, в связи с большой долей текстов, в которых упоминается более одной этнической группы. В этой задаче лучшие результаты получены при сочетании языковой модели Conversational RuBERT с нейросетевым алгоритмом, состоящим из одного плотного слоя. В работе даны рекомендации для пользователей алгоритмов машинного обучения по составлению коллекций, выбору настроек алгоритмов и интерпретации результатов совместного использования тематического моделирования и классификации.
Диссертация [*.pdf, 8.28 Мб] (дата размещения 2/22/2024)
Резюме [*.pdf, 611.42 Кб] (дата размещения 2/22/2024)
Summary [*.pdf, 423.05 Кб] (дата размещения 2/22/2024)

Публикации, в которых излагаются основные результаты диссертации

Topic modelling for qualitative studies (смотреть на сайте журнала)
Mining ethnic content online with additively regularized topic models (смотреть на сайте журнала)
An Opinion Word Lexicon and a Training Dataset for Russian Sentiment Analysis of Social Media (смотреть на сайте журнала)
PolSentiLex: Sentiment Detection in Socio-political Discussions on Russian Social Media (смотреть на сайте журнала)
Detecting interethnic relations with the data from social media (смотреть на сайте журнала)
Detecting ethnicity-targeted hate speech in Russian social media texts (смотреть на сайте журнала)
Agenda Divergence in A Developing Conflict: A Quantitative Evidence from A Ukrainian and A Russian TV Newsfeeds (смотреть на сайте журнала)
Communities of co-commenting in the Russian LiveJournal and their topical coherence (смотреть на сайте журнала)
Redefining media agendas: topic problematization in online reader comments (смотреть на сайте журнала)
Predicting subjective well-being in a high-risk sample of Russian mental health app users (смотреть на сайте журнала)
‘LiveJournal Libra!’: The political blogosphere and voting preferences in Russia in 2011–2012 (смотреть на сайте журнала)
Estimating Topic Modeling Performance with Sharma–Mittal Entropy (смотреть на сайте журнала)


Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень доктора филологических наук (протокол № 2 от 23.04.2024). Решением диссертационного совета (протокол №6 от 22.05.2024) присуждена ученая степень доктора филологических наук.
См. на ту же тему

Спрос на навыки работников в сфере информационных технологий в России: методика идентификации и классификацииКандидатская диссертация

Соискатель: Терников Андрей Александрович
Руководитель: Александрова Екатерина Александровна
Дата защиты: 12/17/2024

Воздействие негативных санкций на политическую коммуникацию в социальных медиаКандидатская диссертация

Соискатель: Филиппов Илья Борисович
Руководитель: Ахременко Андрей Сергеевич
Дата защиты: 9/25/2023

Энтропийные тематические модели и методы их агрегированияДокторская диссертация

Соискатель: Кольцов Сергей Николаевич
Дата защиты: 2/1/2023