• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Применение графовых нейронных сетей и обучения с подкреплением для генерации краткого содержания исходного текста

ФИО студента: Какурин Василий Владимирович

Руководитель: Сластников Сергей Александрович

Кампус/факультет: Московский институт электроники и математики им. А.Н. Тихонова

Программа: Прикладная математика (Бакалавриат)

Год защиты: 2024

Задачи компьютерной обработки и анализа текстовых данных привлекают значительное внимание исследователей в последние годы. Современные нейросетевые модели, например ChatGPT, достигли значительных успехов в различных прикладных задачах, среди которых поддержание диалога с человеком и ответ на вопросы. Обучение с подкреплением, и, в частности, обучение с подкреплением с использованием обратной связи от людей – ключевой компонент, благодаря которому современные модели достигают успеха в различных задачах и приложениях. Однако, некоторые задачи, среди которых обработка и пересказ длинных текстов, получают значительно меньше внимания исследователей. Архитектура Transformer, ставшая основным компонентом большинства современных моделей, обладает квадратичной сложностью в зависимости от длины входной последовательности, вследствие чего она не может напрямую применяться к длинным последовательностям. В данной работе предлагается подход, позволяющий обрабатывать длинные текстовые последовательности для генерации краткого содержания. Используя предобученные современные нейросетевые модели обработки текстов, дообученные для задачи составления краткого содержания исходного текста, мы объединяем их с графовой нейронной сетью. Предложенный подход частично решает проблему квадратичной вычислительной сложности совремменных нейросетевых моделей обработки естественного языка в зависимости от длины входной последовательности, позволяя обрабатывать длинные текстовые последовательности с меньшей вычислительной сложностью. Для оценки результатов применения данного подхода были обучены несколько нейросетевых моделей на публично доступных наборах данных с текстами и их кратким содержанием (ArXiv, Gazeta), а также был собран набор длинных текстов на русском языке, содержащий наборы новостей за сутки, и краткие выдержки главных событий за эти сутки. Предложенный подход, примененный к предобученным нейросетевым моделям, позволяет улучшить их качество работы по метрикам, рассматриваемым авторами моделей в соответствующих статьях. Так как для применения этого подхода к обученной нейросетевой модели не требуется значительных дополнительных затрат вычислительных ресурсов, с его помощью исследователи и разработчики могут модифицировать уже имеющиеся модели, увеличивая максимальную длину обрабатываемых текстов и повышая качество обработки.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ