• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Исследование влияния оптимизации инференса LLM на качество LLM

ФИО студента: Борисов Артём Николаевич

Руководитель: Вознесенская Тамара Васильевна

Кампус/факультет: Факультет компьютерных наук

Программа: Прикладной анализ данных (Бакалавриат)

Оценка: 8

Год защиты: 2024

Экспоненциальный рост больших языковых моделей (LLMs) в последние годы привел к значительным достижениям в обработке естественного языка (NLP). Эти модели, обладающие беспрецедентной способностью понимать и генерировать текст, схожий с человеческим, демонстрируют выдающиеся результаты в широком спектре приложений. Однако их увеличивающийся размер и сложность создают значительные проблемы в отношении вычислительных требований, потребления памяти и скорости вывода. В этом дипломе рассматриваются три метода ускорения вывода: квантование, flash-attention и deep-speed. Квантование уменьшает точность представления данных в нейронных сетях, тем самым снижая вычислительные затраты и минимизируя использование памяти. Flash-attention оптимизирует доступ к памяти и вычислительную эффективность, в то время как deep-speed использует техники слияния ядер и оптимизации памяти для повышения производительности модели. В исследовании анализируется влияние этих стратегий оптимизации на точность и производительность модели с использованием популярных моделей с открытым исходным кодом Llama2-7b, Mistral-7b и Mixtral-8x7b. Результаты работы дают представление о компромиссах между эффективностью и точностью, предлагая всестороннюю оценку этих методов на бенчмарках MMLU и RUMMLU. Эта работа направлена на то, чтобы сделать крупные языковые модели более доступными и эффективными.

Текст работы (работа добавлена 27 мая 2024 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ