Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Разработка и анализ алгоритмов для задачи оптимального управления и обучения с подкреплениемDevelopment and Theoretical Analysis of the Algorithms for Optimal Control and Reinforcement Learning

Члены комитета:
Зайцев Алексей Алексеевич (Сколковский институт науки и технологий, к.ф.-м.н., председатель комитета), Бурнаев Евгений Владимирович (Сколковский институт науки и технологий, д.ф.-м.н., член комитета), Гасников Александр Владимирович (ФГАОУ ВО МФТИ, д.ф.-м.н., член комитета), Панов Владимир Александрович (НИУ ВШЭ, д.м.н., член комитета), Урусов Михаил Александрович (University of Duisburg-Essen, к.ф.-м.н, член комитета)
Диссертация принята к предварительному рассмотрению:
6.03.2023
Диссертация принята к защите:
29.05.2023
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
16.06.2023
In this PhD dissertation, we address the problems of optimal stopping and learning in Markov decision processes used in reinforcement learning (RL). In the first direction, we derive complexity estimates for the algorithm called Weighted Stochastic Mesh (WSM) and give a new method for comparing the complexity of optimal stopping algorithms with the semi tractability index. We show that WSM is optimal with respect to this criterion when the commonly used regression methods are much less effective. For reinforcement learning, we give a non-asymptotic convergence analysis of a stochastic approximation scheme with two time scales - gradient TD - under assumptions of "martingale increment" noise - buffer replay - and of "Markov noise" (when learning is done along a single run). We obtain upper bounds that are rate-optimal by constructing an error expansion method that provides accurate control of the remainders terms. We also present a new algorithm for variance reduction in policy gradient schemes. The proposed approach is based on minimising an estimator for the empirical variance of the weighted rewards. We establish theoretical and practical gains over the classical actor-critic (A2C) method.
Диссертация [*.pdf, 11.39 Мб] (дата размещения 10.03.2023)
Резюме [*.pdf, 1.80 Мб] (дата размещения 10.03.2023)
Summary [*.pdf, 1.76 Мб] (дата размещения 10.03.2023)

Отзывы
Отзыв научного руководителя
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата компьютерных наук (протокол №2 от 16.06.2023). Решением диссертационного совета (протокол №9 от 08.09.2023) присуждена ученая степень кандидата компьютерных наук.
См. на ту же тему

Геометрия методов внутренней точки и приложенияКандидатская диссертация

Соискатель: Иванова Анастасия Сергеевна
Руководитель: Хильдебранд Роланд
Дата защиты: 15.11.2024

Мозговые корреляты научения в различных социальных контекстах: нейроэкономическое исследование с применением методов нейровизуализации, компьютерного моделирования и метаанализаКандидатская диссертация

Соискатель: Мартинез Саито Марио
Руководитель: Ключарёв Василий Андреевич
Дата защиты: 15.05.2023