Улучшение языковых моделей с помощью графовых эмбеддингов

ФИО студента: Илюшин Станислав Сергеевич

Кампус/факультет: Факультет компьютерных наук

Программа: Науки о данных (Магистратура)

Год защиты: 2024

В последние годы языковые модели стали ключевыми инструментами для задач, требующих обработки текстовых материалов. Эти модели прошли значительную эволюцию от простых статистических подходов до сложных систем, использующих нейронные сети, такие как рекуррентные нейронные сети (RNN) и модели Transformer, но несмотря на значительные успехи в области обработки естественного языка (NLP), они сталкиваются с ограничениями в использовании структурированной информации и знаний. В данной работе исследуется возможность улучшения языковых моделей с помощью графовых нейронных сетей (GNN), таких как Graph Autoencoder (GAE). Основная идея заключается в интеграции структурированной информации из графов знаний в процесс обучения языковых моделей. Предлагается новый алгоритм токенизации структуры графов, представляющий вершину графа как подграф токенов, что позволяет эффективно захватывать взаимосвязи между сущностями и понятиями. Цели исследования включают разработку модели кодирования вершин и ребер графов ассоциаций на основе GAE, создание архитектуры модели токенизации графов и архитектуры обучения, интеграцию пайплайна из двух графовых нейронных сетей, а также оценку влияния предложенного подхода на качество языковых моделей в классических задачах NLP. В результате работы были объединены данные из двух мультиязычных источников по ассоциативным рядам и построены два ассоциативных графа: граф слов ассоциаций и граф токенов слов. Разработана и реализована схема обучения представлениям ассоциативного графа и адаптивного обучения через граф токенов слов. Полученная модель показала хорошие результаты в задачах word-semantics, успешно решая проблему маломощных словарей (OOV) и недостатка адекватного механизма токенизации вершин графа. Основные результаты работы включают представление карты ассоциаций в виде графической структуры, применение графовых энкодеров в NLP задачах, построение эмбеддингов, получение метрик модели и визуализации эмбеддингов, тестирование и сравнение моделей GAE/TokenGAE, а также оценку метрик на бенчмарках word-sim против популярных быстрых маленьких энкодеров.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ