• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Методы автоматического извлечения информации в приложении к типологическим базам данных

ФИО студента: Корнилов Альберт Андреевич

Руководитель: Толдова Светлана Юрьевна

Кампус/факультет: Факультет гуманитарных наук

Программа: Фундаментальная и компьютерная лингвистика (Бакалавриат)

Оценка: 10

Год защиты: 2024

2024 год перспективен для разработок в области zero-shot машинного перевода, поскольку результаты последних исследований позволяют большим языковым моделям (LLM) принимать в качестве промпта длинные последовательности токенов: более 2 миллионов токенов – (Ding et al. 2024), потенциально бесконечный контекст – (Munkhdalai et al. 2024). Для малоресурсных языков, не имеющих не только параллельных, но и монолингвальных данных в Интернете, единственным источником информации являются книги, написанные лингвистами – описательные грамматики. Подход, связанный с подачей целых книг – грамматик – в качестве инструкций в промпт для LLM с целью zero-shot машинного перевода для малоресурсных языков, был описан в (Tanzer et al. 2023) и (Zhang et al. 2024). Однако вариативность и двусмысленность терминологии, используемой в грамматиках, а также разрозненный характер информации создают проблемы. Возможное решение этих проблем – создание масштабируемого пайплайна для обработки и систематизации грамматик. В данной работе представлены два бенчмарка для оценки метода генерации ответа с учетом дополнительно найденной релевантной информации (Retrieval Augmented Generation, RAG). Бенчмарки состоят из абзацев, извлеченных из грамматик и размеченных в соответствии с релевантностью 9 типологическим характеристикам. Тестирование на представленных бенчмарках демонстрирует, что наиболее оптимальным подходом к RAG на лингвистическом домене как с точки зрения качества, так и с точки зрения предсказуемости, является следующий набор шагов: передача типологических характеристики в RAG-пайплайн по очереди, а не одновременно, с использованием одновременно реранкера и промпта Chain-of-Thought.

Текст работы (работа добавлена 27 мая 2024 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ