Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Целевое обучение с подкреплением через советы экспертов

ФИО студента: Климкин Андрей Михайлович

Руководитель: Швечиков Павел Дмитриевич

Кампус/факультет: Факультет компьютерных наук

Программа: Прикладная математика и информатика (Бакалавриат)

Оценка: 8

Год защиты: 2018

В данной работе представлен новый подход, способный уменьшить время обучения алгоритмов с подкреплением. Основная концепция предложенного метода состоит в разделении процесса обучения агента на две стадии. На первой стадии агент выучивает несколько локально оптимальных политик (оптимальные для некоторого подмножества начальных состояний), используя идеи целевого обучения, где очередная цель (некоторое состояние среды) поступает агенту от эксперта —— другого агента (одного или нескольких), который действует оптимально из некоторого подмножества состояний. На второй стадии обучаемый агент пытается построить глобально-оптимальную политику путём объединения выученных ранее стратегий. Для множества не самых сложных сред стандартный метод, использующий градиент по политике (policy gradient method), выучивает лишь локально-оптимальную политику, в то время как предложенный в работе подход за счет разделения процесса обучения на две стадии и получаемой информации от экспертов позволяет лучше исследовать среду в случае разреженной награды и не заканчивать обучение в неподходящей локально-оптимальной политике. В работе показано, что даже если изначально об экспертах неизвестно практически ничего —— не известна политика каждого эксперта, а также множество состояний, из которых каждый из экспертов действует оптимально, все равно возможно извлечь полезную информацию из получаемых агентом целей для ускорения процесса обучения. Представлено подробное экспериментальное сравнение стандартного алгоритма, использующего градиент по политике (policy gradient method), с новым алгоритмом, а также приведен способ борьбы с разреженной наградой, который наследует идеи экспертного обучения.

Текст работы (работа добавлена 21 мая 2018 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ