• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Разработка универсального семантического энкодера текстов для русского языка

ФИО студента: Малашенко Борис Тарасович

Руководитель: Мухин Михаил Сергеевич

Кампус/факультет: Санкт-Петербургская школа физико-математических и компьютерных наук

Программа: Машинное обучение и анализ данных (Магистратура)

Оценка: 8

Год защиты: 2024

В данной выпускной квалификационной работе описана разработка универсального семантического энкодера текстов для русского языка. Основная цель исследования заключалась в создании модели, которая превосходит существующие аналоги по качеству семантического кодирования текстов. Работа включает обзор существующих методов кодирования текстов и используемых для этого данных, а также методов их валидации. Были рассмотрены подходы на основе моделей BERT, функции потерь, использование инструкций и дообучение под конкретные задачи. В рамках работы были разработаны и обучены модели на основе собранных и сгенерированных датасетов, включающих как положительные, так и отрицательные пары текстов. Особое внимание уделено созданию сложных отрицательных пар и валидации моделей на различных задачах, таких как оценка семантического сходства, классификация текстов и извлечение релевантной информации. В результате была создана модель, которая демонстрирует улучшенные результаты на целевых метриках по сравнению с аналогами, что подтверждается тестированием на нескольких бенчмарках.

Текст работы (работа добавлена 25 мая 2024 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ