Магистратура
2020/2021
Обучение с подкреплением
Статус:
Курс по выбору (Науки о данных)
Направление:
01.04.02. Прикладная математика и информатика
Кто читает:
Базовая кафедра Яндекс
Где читается:
Факультет компьютерных наук
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Ратников Федор Дмитриевич
Прогр. обучения:
Науки о данных
Язык:
русский
Кредиты:
6
Контактные часы:
56
Программа дисциплины
Аннотация
Цель курса - ознакомление студентов с основными подходами и алгоритмами обучения с подкреплением. Планируется дать понимание того, какие существуют подходы к решению задач обучения с подкреплением, научить выбирать подход и алгоритм, наиболее подходящий для рассматриваемой студентом задачи, научить обучать модели с использованием современных нейросетевых библиотек.
Цель освоения дисциплины
- уметь распознавать ситуации, в которых уместно применение методов обучения с подкреплением
- уметь сформулировать задачу обучения с подкреплением и выбрать эффективный способ её решения
- знать основные парадигмы обучения с подкреплением и границы их применимости
- владеть методами теоретического исследования используемых алгоритмов
- уметь достигать баланса между exploration и exploitation
- знать что такое среда, состояние и агент в обучении с подкреплением
- уметь выбирать архитектуру рекуррентной нейронной сети и обучать её
- уметь применять различные трюки для ускорения и оптимизации обучения
- уметь обучить по возможности оптимального агента для решения задачи, оценить его эффективность
Планируемые результаты обучения
- знать что такое среда, состояние и агент в обучении с подкреплением
- уметь сформулировать задачу обучения с подкреплением и выбрать эффективный способ её решения
- уметь распознавать ситуации, в которых уместно применение методов обучения с подкреплением
- уметь обучить по возможности оптимального агента для решения задачи, оценить его эффективность
- знать основные парадигмы обучения с подкреплением и границы их применимости
- владеть методами теоретического исследования используемых алгоритмов
- уметь применять различные трюки для ускорения и оптимизации обучения
- уметь достигать баланса между exploration и exploitation
- уметь выбирать архитектуру рекуррентной нейронной сети и обучать её
Содержание учебной дисциплины
- RL как blackbox optimizationПроблемы обучения с подкреплением вокруг нас. Decision processes. Stochastic optimization, Crossentropy method. Parameter space search vs action space search. Welcome into openai gym. Tabular CEM for Taxi-v0, deep CEM for box2d environments.
- Value-based методы"Discounted reward MDP. Value-based approach. Value iteration. Policy iteration. Discounted reward fails. Value iteration. "
- Model-free методыQ-learning. SARSA. Off-policy Vs on-policy algorithms. N-step algorithms. TD(Lambda). Qlearning Vs SARSA Vs Expected Value SARSA
- Приближённое обучение с подкреплениемInfinite/continuous state space. Value function approximation. Convergence conditions. Multiple agents trick; experience replay, target networks, double/dueling/bootstrap DQN, etc. Approximate Q-learning with experience replay. (CartPole, Atari)
- Exploration в обучении с подкреплениемContextual bandits. Thompson Sampling, UCB, bayesian UCB. Exploration in model-based RL, MCTS. "Deep" heuristics for exploration. Вayesian exploration for contextual bandits. UCB for MCTS.
- Policy gradient методы, часть 1Motivation for policy-based, policy gradient, logderivative trick, REINFORCE/crossentropy method, variance reduction(baseline), advantage actor-critic (incl. GAE)
- Рекуррентные нейронные сетиProblems with sequential data. Recurrent neural networks. Backprop through time. Vanishing & exploding gradients. LSTM, GRU. Gradient clipping
- Partially observable MDPsPOMDP intro. POMDP learning (agents with memory). POMDP planning (POMCP, etc)
- ПриложенияReinforcement Learning as a general way to optimize non-differentiable loss. G2P, machine translation, conversation models, image captioning, discrete GANs. Self-critical sequence training.
- Policy gradient методы, часть 2Trust region policy optimization. NPO/PPO. Deterministic policy gradient. DDPG. Bonus: DPG for discrete action spaces.
Элементы контроля
- Домашнее задание
- Домашнее задание
- ЭкзаменОценка за дисциплину выставляется в соответствии с формулой оценивания от всех пройденных элементов контроля. Экзамен не проводится.
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.3 * Домашнее задание + 0.3 * Домашнее задание + 0.4 * Экзамен
Список литературы
Рекомендуемая основная литература
- Andrea Mechelli, & Sandra Vieira. (2019). Machine Learning : Methods and Applications to Brain Disorders. [N.p.]: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2118707
Рекомендуемая дополнительная литература
- Géron, A. (2017). Hands-On Machine Learning with Scikit-Learn and TensorFlow : Concepts, Tools, and Techniques to Build Intelligent Systems (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1486117
- Nandy, A., & Biswas, M. (2018). Reinforcement Learning : With Open AI, TensorFlow and Keras Using Python. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1651811