• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Оптимизация RAG-pipeline на примере данных НИУ ВШЭ

ФИО студента: Берестова Виктория Андреевна

Руководитель: Бекларян Армен Левонович

Кампус/факультет: Факультет компьютерных наук

Программа: Финансовые технологии и анализ данных (Магистратура)

Год защиты: 2024

В данной работе исследуется метод обращения к большим языковым моделями, предполагающий генерации, дополненные извлечениями (retrieval-augmented generation, RAG). В работе проведено построение всех этапов пайплайна RAG и их оптимизация на данных НИУ ВШЭ. Результаты работы будут применяться для разработки чат-бота помощника студентам НИУ ВШЭ. RAG построен на российской большой языковой модели GigaChat с использованием API данной модели через SDK GigaChain. В ходе работы применялись различные методы работы с текстами, векторными базами данных, способы промптирования и методы генераций больших языковых моделей. Итоговым результатом работы является автоматизированный пайплайн для подбора гиперпараметров RAG-пайплайна для заданной базы знаний. В рамках исследования также разработан парсер базы знаний по релевантным источникам об учебном процессе в ВУЗе, сформирован набор валидационных метрик оценки качества ответов, использован фреймворк автоматической валидации RAG (RAGAS). Проведенный анализ позволил сделать выводы о влиянии каждого этапа пайплайна на итоговые ответы. В результате проведенной работы удалось значительно улучшить (+30п.п. по метрике правильности ответов) основные метрики качества ответов модели. В рамках исследования были выявлены недостатки текущего подхода, а именно низкое качество исходных данных. Полученные выводы будут использоваться для дальнейшего исследования и разработки чат-ассистента в рамках проекта «Использование больших языковых моделей для помощи студентам НИУ ВШЭ». Сформулированы направления улучшения и точки роста работы.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ