• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Программа для детекции ботов, основанная на выделении областей одинаковой внутренней размерности в массиве языковых данных

ФИО студента: Бородин Никита Сергеевич

Руководитель: Громов Василий Александрович

Кампус/факультет: Факультет компьютерных наук

Программа: Программная инженерия (Бакалавриат)

Год защиты: 2024

В настоящей работе представлен новый объект исследования – языковая фрактальная структура; мы предполагаем, что набор векторных вложений всех n-грамм естественного языка представляет собой репрезентативную выборку такого объекта (мы используем термин Hailonakea для обозначения совокупности всех фрактальных структур языка по всем n). В ходе исследования оцениваются внутренние (истинные) размерности языковых фрактальных структур русского и английского языков, а также их областей, с целью построения алгоритма различения текстов, написанных людьми и ботами на соответствующих языках. Для этого мы используем методы, основанные на (1) топологическом анализе данных, (2) построении минимального остовного дерева для рассматриваемого облака точек (теорема Стила) и (3) иерархической графовой кластеризации (алгоритмы Зана, Гато-Гева). Для обоих языков при всех n размерности оказываются нецелыми значениями, что типично для фрактальных множеств, близкими к 9 как для русского, так и для английского языков. В то же время сравнение текстов одного языка, написанных человеком, с текстами, сгенерированными ботом, обнаруживает факт пониженной размерности текстов бота относительно текстов человека. В ходе работы был разработан прототип детектора (бинарного классификатора людей и ботов), точность которого составляет 64% (F1-score: 0.68) для русского и 79% (F1- score: 0.79) для английского языков. Метрики рассчитаны для моделей ботов с архитектурами mGPT и YaLM.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ