Магистратура
2023/2024![Цель освоения дисциплины](/f/src/global/i/edu/objectives.svg)
![Планируемые результаты обучения](/f/src/global/i/edu/results.svg)
![Содержание учебной дисциплины](/f/src/global/i/edu/sections.svg)
![Промежуточная аттестация](/f/src/global/i/edu/intermediate_certification.svg)
![Список литературы](/f/src/global/i/edu/library.svg)
Обучение с подкреплением
Статус:
Курс по выбору (Современные компьютерные науки)
Направление:
01.04.02. Прикладная математика и информатика
Кто читает:
Базовая кафедра Яндекс
Где читается:
Факультет компьютерных наук
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Бронер Валентина Игоревна
Прогр. обучения:
Современные компьютерные науки
Язык:
русский
Кредиты:
6
Контактные часы:
80
Программа дисциплины
Аннотация
Цель курса - ознакомление студентов с основными подходами и алгоритмами обучения с подкреплением. Планируется дать понимание того, какие существуют подходы к решению задач обучения с подкреплением, научить выбирать подход и алгоритм, наиболее подходящий для рассматриваемой студентом задачи, научить обучать модели с использованием современных нейросетевых библиотек.
Цель освоения дисциплины
- уметь распознавать ситуации, в которых уместно применение методов обучения с подкреплением
- уметь сформулировать задачу обучения с подкреплением и выбрать эффективный способ её решения
- знать основные парадигмы обучения с подкреплением и границы их применимости
- владеть методами теоретического исследования используемых алгоритмов
- уметь достигать баланса между exploration и exploitation
- знать что такое среда, состояние и агент в обучении с подкреплением
- уметь выбирать архитектуру рекуррентной нейронной сети и обучать её
- уметь применять различные трюки для ускорения и оптимизации обучения
- уметь обучить по возможности оптимального агента для решения задачи, оценить его эффективность
Планируемые результаты обучения
- владеть методами теоретического исследования используемых алгоритмов
- знать основные парадигмы обучения с подкреплением и границы их применимости
- знать что такое среда, состояние и агент в обучении с подкреплением
- уметь выбирать архитектуру рекуррентной нейронной сети и обучать её
- уметь достигать баланса между exploration и exploitation
- уметь обучить по возможности оптимального агента для решения задачи, оценить его эффективность
- уметь применять различные трюки для ускорения и оптимизации обучения
- уметь распознавать ситуации, в которых уместно применение методов обучения с подкреплением
- уметь сформулировать задачу обучения с подкреплением и выбрать эффективный способ её решения
Содержание учебной дисциплины
- RL как blackbox optimization
- Value-based методы
- Model-free методы
- Приближённое обучение с подкреплением
- Exploration в обучении с подкреплением
- Policy gradient методы, часть 1
- Рекуррентные нейронные сети
- Partially observable MDPs
- Приложения
- Policy gradient методы, часть 2
Промежуточная аттестация
- 2023/2024 учебный год 4 модуль0.25 * Домашнее задание 1 + 0.25 * Домашнее задание 2 + 0.25 * Контрольная работа 1 + 0.25 * Контрольная работа 2
Список литературы
Рекомендуемая основная литература
- Andrea Mechelli, & Sandra Vieira. (2019). Machine Learning : Methods and Applications to Brain Disorders. [N.p.]: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2118707
Рекомендуемая дополнительная литература
- Géron, A. (2017). Hands-On Machine Learning with Scikit-Learn and TensorFlow : Concepts, Tools, and Techniques to Build Intelligent Systems (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1486117
- Nandy, A., & Biswas, M. (2018). Reinforcement Learning : With Open AI, TensorFlow and Keras Using Python. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1651811