Разработка и анализ алгоритмов для задачи оптимального управления и обучения с подкреплениемDevelopment and Theoretical Analysis of the Algorithms for Optimal Control and Reinforcement Learning

Соискатель:

Руководители

Беломестный Денис Витальевич (др. работы под рук-вом); Мулине Эрик Франсуа Виктор (др. работы под рук-вом)

Члены комитета:

Зайцев Алексей Алексеевич (Сколковский институт науки и технологий, к.ф.-м.н., председатель комитета), Бурнаев Евгений Владимирович (Сколковский институт науки и технологий, д.ф.-м.н., член комитета), Гасников Александр Владимирович (ФГАОУ ВО МФТИ, д.ф.-м.н., член комитета), Панов Владимир Александрович (НИУ ВШЭ, д.м.н., член комитета), Урусов Михаил Александрович (University of Duisburg-Essen, к.ф.-м.н, член комитета)

Диссертация принята к предварительному рассмотрению:

6.03.2023

Диссертация принята к защите:

29.05.2023

Дисс. совет:

Совет по компьютерным наукам

Дата защиты:

16.06.2023

In this PhD dissertation, we address the problems of optimal stopping and learning in Markov decision processes used in reinforcement learning (RL). In the first direction, we derive complexity estimates for the algorithm called Weighted Stochastic Mesh (WSM) and give a new method for comparing the complexity of optimal stopping algorithms with the semi tractability index. We show that WSM is optimal with respect to this criterion when the commonly used regression methods are much less effective. For reinforcement learning, we give a non-asymptotic convergence analysis of a stochastic approximation scheme with two time scales - gradient TD - under assumptions of "martingale increment" noise - buffer replay - and of "Markov noise" (when learning is done along a single run). We obtain upper bounds that are rate-optimal by constructing an error expansion method that provides accurate control of the remainders terms. We also present a new algorithm for variance reduction in policy gradient schemes. The proposed approach is based on minimising an estimator for the empirical variance of the weighted rewards. We establish theoretical and practical gains over the classical actor-critic (A2C) method.

Диссертация [*.pdf, 11.39 Мб] (дата размещения 10.03.2023)

Резюме [*.pdf, 1.80 Мб] (дата размещения 10.03.2023)

Summary [*.pdf, 1.76 Мб] (дата размещения 10.03.2023)

Публикации, в которых излагаются основные результаты диссертации

Kaledin M., Naumov A., Moulines E., Tadic V., Wai Hoi-To Time Analysis of Linear Two-timescale Stochastic Approximation with Markovian Noise (смотреть на сайте журнала)

Belomestny D., Kaledin M., Schoenmakers J. Semitractability of optimal stopping problems via a weighted stochastic mesh algorithm (смотреть на сайте журнала)

Отзывы

Отзыв научного руководителя

Беломестный Денис Витальевич (дата размещения 6.03.2023)
Мулине Эрик Франсуа Виктор (дата размещения 6.03.2023)

Сведения о результатах защиты:

Комитет по диссертации рекомендовал присудить ученую степень кандидата компьютерных наук (протокол №2 от 16.06.2023). Решением диссертационного совета (протокол №9 от 08.09.2023) присуждена ученая степень кандидата компьютерных наук.

Ключевые слова:

machine learning, optimal control, reinforcement learning

См. на ту же тему

Геометрия методов внутренней точки и приложенияКандидатская диссертация

Соискатель: Иванова Анастасия Сергеевна
Руководитель: Хильдебранд Роланд
Дата защиты: 15.11.2024

Мозговые корреляты научения в различных социальных контекстах: нейроэкономическое исследование с применением методов нейровизуализации, компьютерного моделирования и метаанализаКандидатская диссертация

Соискатель: Мартинез Саито Марио
Руководитель: Ключарёв Василий Андреевич
Дата защиты: 15.05.2023