Методы аугментации данных для обучения диалоговых систем

ФИО студента: Пащенко Анатолий Владиславович

Программа: Бизнес-информатика (Бакалавриат)

Год защиты: 2021

В последние 3 года сфера обработки естественной речи (NLP) претерпела существенные изменения. На замену устаревшим LSTM-архитектурам пришли таковые, основанные на трансформере. Прорывной стала модель BERT. После ее релиза осенью 2018 года почти каждая новая языковая модель опиралась на нее. По причине новизны текущего взгляда на сферу и постоянного появления современных SOTA-решений мало исследований было посвящено аугментациям для улучшения качества. На данный момент не имеется комплексного обзора способов создания полезных искусственных примеров для актуальных диалоговых систем. В связи с чем, в данной дипломной работе рассмотрены основные аугментации, определенные как эффективные, не только для задач NLP и таких систем, в частности, но и для визуальных ответов на вопросы (VQA) и компьютерного зрения. Такие действия нацелены на выявление эффективных аугментаций для вопросно-ответных задач и сравнение их результатов, чтобы закрыть упомянутый пропуск в литературе. Помимо этого, тонкая настройка на синтетических примерах применяется не только к полноразмерной модели BERT, но и к ее дистиллированной версии, для оценки того, насколько маленькие архитектуры со схожими значениями метрик способны обрабатывать искусственные объекты сравнительно с полноразмерной версией. Большие модели долго настраивать, дорого и трудно внедрять в продукты, в связи с чем обычно начинают с вариантов менее громоздких. Поэтому необходимо определить, могут ли они работать с синтетическими примерами на уровне архитектур побольше. Для достижения поставленной цели требовалось выполнить ряд задач: 1. Выбор моделей 2. Выбор набора данных 3. Отбор аугментаций 4. Определение результатов базового решения (без аугментаций) для каждой из моделей 5. Реализация и применение аугментаций 6. Расчет итоговых метрик после применения каждой аугментации 7. Сравнение относительного изменения метрик в зависимости от аугментаций для каждой модели 8. Выявление эффективных способов создания синтетических примеров для диалоговых систем Первым этапом работы являлось использование теоретических методов, а именно анализа литературы и ее сравнения для отбора моделей, корпуса и аугментаций, используемых в рамках исследования. После этого применялись математические методы для обработки набора данных, тонкой настройки модели и предсказания на обычных и измененных данных с последующим расчетом метрик. За этим шагом следовало сравнение результатов предыдущего этапа. По итогам проведенных практических работ мы сделали ряд выводов. Во-первых, каждый способ аугментирования улучшил качество BERT. Однако многие вариации DistilBERT показали себя хуже бейзлайна, увеличение метрик у лучших так же значительно ниже такового для полноразмерной версии. В результате можно судить о том, что дистиллированная модель обрабатывает искаженные тексты существенно хуже большой. Наиболее эффективными аугментациями являются вставка слова с помощью MLM и замена синонимом. Наилучшее качество среди всех сравниваемых вариаций, как по EM, так и по F1, выдала комбинация с последовательным применением двух названных методов. Случайный выбор способа изменения текстов на уровне батча проявил себя хуже всех остальных, в том числе и бейзлайна. По итогам работы мы рекомендуем отказаться от дистиллированных моделей как от варианта для проверки полезности основанных на BERT алгоритмов на своих данных, так как, несмотря на их близкий результат на SQuAD, на менее качественных данных такие версии справляются существенно хуже. Помимо этого, советуем использовать каждую из рассмотренных в работе аугментаций для создания искусственных примеров с целью увеличения качества или расширения корпусов ввиду их высокой эффективности.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ