• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

In-context обучение с подкреплением при помощи дистилляции шума

ФИО студента: Зисман Илья Александрович

Руководитель: Мухин Михаил Сергеевич

Кампус/факультет: Санкт-Петербургская школа физико-математических и компьютерных наук

Программа: Машинное обучение и анализ данных (Магистратура)

Год защиты: 2024

Существующие методы in-context RL ограничены жесткими требованиями к данным, которые должны быть сгенерированы агентами RL или размечены действиями из оптимальной политики. Для решения этой распространенной проблемы в работе предлагается метод AD$^\varepsilon$, новый подход к сбору данных, который позволяет осуществлять контекстное RL обучение через дистилляцию шума. В работе демонстрируется, что данные для обучения in-context RL алгоритмов можно моделировать при помощи шума. В работе также экспериментально показано, что можно избавиться от необходимости генерировать оптимальные политики, при этом in-context RL все равно способно превзойти лучшую субоптимальную политику в обучаемом наборе данных с 2-кратным отрывом.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ