• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Разработка и анализ алгоритмов для задачи оптимального управления и обучения с подкреплениемDevelopment and Theoretical Analysis of the Algorithms for Optimal Control and Reinforcement Learning

Члены комитета:
Зайцев Алексей Алексеевич (Сколковский институт науки и технологий, к.ф.-м.н., председатель комитета), Бурнаев Евгений Владимирович (Сколковский институт науки и технологий, д.ф.-м.н., член комитета), Гасников Александр Владимирович (ФГАОУ ВО МФТИ, д.ф.-м.н., член комитета), Панов Владимир Александрович (НИУ ВШЭ, д.м.н., член комитета), Урусов Михаил Александрович (University of Duisburg-Essen, к.ф.-м.н, член комитета)
Диссертация принята к предварительному рассмотрению:
3/6/2023
Диссертация принята к защите:
5/29/2023
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
6/16/2023
In this PhD dissertation, we address the problems of optimal stopping and learning in Markov decision processes used in reinforcement learning (RL). In the first direction, we derive complexity estimates for the algorithm called Weighted Stochastic Mesh (WSM) and give a new method for comparing the complexity of optimal stopping algorithms with the semi tractability index. We show that WSM is optimal with respect to this criterion when the commonly used regression methods are much less effective. For reinforcement learning, we give a non-asymptotic convergence analysis of a stochastic approximation scheme with two time scales - gradient TD - under assumptions of "martingale increment" noise - buffer replay - and of "Markov noise" (when learning is done along a single run). We obtain upper bounds that are rate-optimal by constructing an error expansion method that provides accurate control of the remainders terms. We also present a new algorithm for variance reduction in policy gradient schemes. The proposed approach is based on minimising an estimator for the empirical variance of the weighted rewards. We establish theoretical and practical gains over the classical actor-critic (A2C) method.
Диссертация [*.pdf, 11.39 Мб] (дата размещения 3/10/2023)
Резюме [*.pdf, 1.80 Мб] (дата размещения 3/10/2023)
Summary [*.pdf, 1.76 Мб] (дата размещения 3/10/2023)

Отзывы
Отзыв научного руководителя
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата компьютерных наук (протокол №2 от 16.06.2023). Решением диссертационного совета (протокол №9 от 08.09.2023) присуждена ученая степень кандидата компьютерных наук.