Использование больших языковых моделей для поиска архитектуры нейронных сетей

ФИО студента: Крагин Александр Федорович

Руководитель: Савченко Андрей Владимирович

Кампус/факультет: Факультет компьютерных наук

Программа: Прикладная математика и информатика (Бакалавриат)

Оценка: 10

Год защиты: 2024

NAS (Neural Architecture Search) это набор методов, созданных для автоматизации поиска оптимальной архитектуры нейронной сети. Интерес в таком подходе мотивируется следующими соображениями: разработка архитектуры нейронной сети для какой-либо задачи это медленный трудоёмкий процесс, который требует участия высококвалифицированных специалистов и существенных денежных затрат. К сожалению, классические методы NAS страдают от высокой вычислительной сложности и имеют ряд общих недостатков, которые накладывают проблематичные ограничения на искомые архитектуры. Последние несколько лет мы наблюдаем невероятные темпы прогресса в области искусственного интеллекта в целом и больших языковых моделей (Large Language Model - LLM) в частности, связанные с развитием архитектуры Transformer[17]. Большие языковые модели обучаются на огромных наборах данных из интернета, которые в том числе содержат научные знания, статьи и программы. Это позволяет выходить за рамки классических задач обработки естественного языка и демонстрировать способности в математике, научных дисциплинах и написании кода. Эксперименты показывают, что лучшие языковые модели (к примеру GPT-4) могут быть использованы для выбора архитектуры нейронной сети, достигая state-of-the-art результатов и избегая основных недостатков классических методов NAS. В этом исследовании мы: 1. Разрабатываем собственный алгоритм для применения LLM в задачах NAS. 2. Проводим анализ производительности разных языковых моделей, от крупных до компактных и доступных всем, в рамках NAS. 3. Проверяем, объясняется ли поведение языковых моделей их способностью узнавать распространённые наборы данных при валидации.

Текст работы (работа добавлена 15 мая 2024 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ