• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2023/2024

Обучение с подкреплением

Статус: Маго-лего
Когда читается: 3, 4 модуль
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 6
Контактные часы: 80

Программа дисциплины

Аннотация

Цель курса - ознакомление студентов с основными подходами и алгоритмами обучения с подкреплением. Планируется дать понимание того, какие существуют подходы к решению задач обучения с подкреплением, научить выбирать подход и алгоритм, наиболее подходящий для рассматриваемой студентом задачи, научить обучать модели с использованием современных нейросетевых библиотек.
Цель освоения дисциплины

Цель освоения дисциплины

  • уметь распознавать ситуации, в которых уместно применение методов обучения с подкреплением
  • уметь сформулировать задачу обучения с подкреплением и выбрать эффективный способ её решения
  • знать основные парадигмы обучения с подкреплением и границы их применимости
  • владеть методами теоретического исследования используемых алгоритмов
  • уметь достигать баланса между exploration и exploitation
  • знать что такое среда, состояние и агент в обучении с подкреплением
  • уметь выбирать архитектуру рекуррентной нейронной сети и обучать её
  • уметь применять различные трюки для ускорения и оптимизации обучения
  • уметь обучить по возможности оптимального агента для решения задачи, оценить его эффективность
Планируемые результаты обучения

Планируемые результаты обучения

  • владеть методами теоретического исследования используемых алгоритмов
  • знать основные парадигмы обучения с подкреплением и границы их применимости
  • знать что такое среда, состояние и агент в обучении с подкреплением
  • уметь выбирать архитектуру рекуррентной нейронной сети и обучать её
  • уметь достигать баланса между exploration и exploitation
  • уметь обучить по возможности оптимального агента для решения задачи, оценить его эффективность
  • уметь применять различные трюки для ускорения и оптимизации обучения
  • уметь распознавать ситуации, в которых уместно применение методов обучения с подкреплением
  • уметь сформулировать задачу обучения с подкреплением и выбрать эффективный способ её решения
Содержание учебной дисциплины

Содержание учебной дисциплины

  • RL как blackbox optimization
  • Value-based методы
  • Model-free методы
  • Приближённое обучение с подкреплением
  • Exploration в обучении с подкреплением
  • Policy gradient методы, часть 1
  • Рекуррентные нейронные сети
  • Partially observable MDPs
  • Приложения
  • Policy gradient методы, часть 2
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
  • неблокирующий Домашнее задание 2
  • неблокирующий Контрольная работа 1
  • неблокирующий Контрольная работа 2
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 4 модуль
    0.25 * Домашнее задание 1 + 0.25 * Домашнее задание 2 + 0.25 * Контрольная работа 1 + 0.25 * Контрольная работа 2
Список литературы

Список литературы

Рекомендуемая основная литература

  • Andrea Mechelli, & Sandra Vieira. (2019). Machine Learning : Methods and Applications to Brain Disorders. [N.p.]: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2118707

Рекомендуемая дополнительная литература

  • Géron, A. (2017). Hands-On Machine Learning with Scikit-Learn and TensorFlow : Concepts, Tools, and Techniques to Build Intelligent Systems (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1486117
  • Nandy, A., & Biswas, M. (2018). Reinforcement Learning : With Open AI, TensorFlow and Keras Using Python. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1651811