Применение техник обучения с подкреплением по учебной программе и самостоятельной игры для конкурентных сред в казахских национальных играх

ФИО студента: Жусупова Динара -

Руководитель: Кантонистова Елена Олеговна

Кампус/факультет: Факультет компьютерных наук

Программа: Машинное обучение и высоконагруженные системы (Магистратура)

Оценка: 7

Год защиты: 2024

Обучение с подкреплением (RL) – это методы машинного (ML) и глубинного обучения, которые нацелены на обучение принятия решений для получения оптимальных результатов. Такое обучение основано на имитации процесса обучения методом проб и ошибок, который используется для достижения определенных целей. Агент пр выборе действия на каждом шаге руководствуется политикой, направленной на достижение результатов, поэтому предпочтение оптимальных решений усиливается, а действия, отвлекающие от цели, игнорируются. Интеллектуальная сущность или агент, взаимодействуя со средой и получая награду или штрафы за свои действия, должен принимать наиболее оптимальные решения на каждом шаге для достижения своей цели, например победы в игре. Сложность заключается в построении системы вознаграждения для среды при обучении агентов. Зачастую правила игры не всегда задают награду за каждый шаг агента в среде, например, в таких играх как шахматы, нелегко построить дизайн вознаграждения для агентов, так как победа в игре является конечным результатом. Успех обучения напрямую зависит от хорошо выстроенной и продуманной стратегии вознаграждения для среды. Обучение в мультиагентных средах, т.е. где взаимодействуют несколько агентов (конкурентные или союзники), является непростой задачей, потому что агенты обучаются параллельно. Для обучения нескольких агентов широко используется техника самостоятельной игры (self-play), когда агенты обучаются играя друг с другом. В данной работе для обучения конкурентных агентов была написана мультиагентная среда для игры <<Тогызкумалак>>, для которой удалось построить хорошую систему вознаграждения, применяемую в учебном плане обучения агентов. Также при обучении техника самостоятельной игры позволила усилить навыки агентов для победы в игре.

Текст работы (работа добавлена 3 июня 2024 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ