Анализ методов внедрения водяных знаков в языковые модели

ФИО студента: Касумов Джейхун Паша оглы

Кампус/факультет: Факультет компьютерных наук

Программа: Науки о данных (Магистратура)

Год защиты: 2024

Эта статья посвящена анализу методов защиты больших языковых моделей (LLM) посредством исследования и применения различных постфактумных методов и методов нанесения водяных знаков, включая WLLM (A Watermark for Large Language Model), SWEET (Selective WatErmarking via Entropy Thresholding) и три новых предложенных метода нанесения водяных знаков. Анализ разделен на три части. Во-первых, изучается соответствующая литература о предыдущих исследованиях алгоритмов защиты LLM. Затем анализ направлен на последующее изучение как теоретического, так и эмпирического направлений темы исследования, причем первое предназначено для проверки и понимания фундаментальных аспектов методов обнаружения текста, генерируемых LLM, а цель второго – наблюдать за показателями производительности некоторых из рассмотренных методов нанесения водяных знаков в реальных условиях. Проблема предотвращения несанкционированного использования и распространения текста, сгенерированного LLM, относительно недавно набрала популярность среди NLP исследователей. На данный момент, было представлено множество различных математических моделей. Эти модели можно в значительной степени разделить на постфактумные и модели генерации водяных знаков, при этом мы обнаруживаем, что последний метод более эффективен и устойчив к внешнему влиянию. Хотя тема исследования весьма актуальна, практически ни в одной из существующих работ не рассматривается защита программного кода, генерируемого LLM. Отличительной особенностью нашей работы является тщательное изучение методов генерации и обнаружения водяных знаков в программном коде. Это могло бы позволить популяризировать соответствующую тему, дать будущим исследователям основу для анализа и дать возможность в будущем применить на практике внедренные методы по генерации и детекции водяных знаков.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ