• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Выделение полисемичных слов из графа связности соседних слов текста

ФИО студента: Охапкина Анна Валерьевна

Руководитель: Клышинский Эдуард Станиславович

Кампус/факультет: Факультет гуманитарных наук

Программа: Фундаментальная и компьютерная лингвистика (Бакалавриат)

Год защиты: 2020

В данной ВКР изучены понятие и структура дистрибутивной модели семантики языка, а также преимущества дистрибутивных моделей перед теоретическими подходами к выделению компонентов значения. Автоматические модели основаны исключительно на эмпирике, способны разделять значения слов на очень большое количество компонентов, способны определять более и менее близкие по смыслу слова и при этом быстро работают. В рамках обзора существующих подходов мы рассмотрели примеры конкретных дистрибутивных моделей, уделив особое внимание различным подходам к разрешению семантической дизамбигуации, реализованным в этих моделях. Также рассмотрели современные SOTA модели, основанные на нейронной архитектуре трансформаторов, и сделали вывод о том, что нейронные сети, показывая высокое качество работы, требуют колоссальных вычислительных мощностей, что не всегда возможно обеспечить при работе с корпусом. В рамках нашей работы мы решили сделать прямо противоположное – построить очень простую модель, которая учитывает только статистические данные о совместной встречаемости слов в корпусе – и исследовать возможности такой дистрибутивной модели в решении задачи семантической дизамбигуации. В настоящей работе реализован алгоритм на языке Python, позволяющий построить дистрибутивную модель на основе статистики совместной встречаемости слов из предварительно обработанного пользовательского корпуса. Рассмотрены три способа визуальной интерпретации информации, полученной в результате работы модели: 1. scatter plot проекций векторов слов на плоскости с помощью алгоритма снижения размерности t-SNE; 2. граф дистрибутивного сходства между словами, построенный с помощью преобразования матрицы расстояний в таблицу сопряженности узлов; 3. heatmap попарной косинусной близости слов.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ