Обучение с подкреплением (Reinforcement Learning) — это парадигма машинного обучения, в которой агент учится принимать решения путём взаимодействия со средой. За удачные действия он получает награду, за неудачные — штраф, и со временем вырабатывает оптимальную стратегию.
Где применяется
- Игры: шахматы, го, видеоигры
- Робототехника и управление
- Оптимизация рекомендаций и рекламы
- Автономный транспорт
Самый известный пример — AlphaGo от DeepMind, обыгравшая чемпиона мира по го. Обучение с подкреплением особенно эффективно там, где нет готовых размеченных данных, но есть чёткая цель и возможность экспериментировать.
Главная сложность метода — необходимость огромного числа проб, поэтому его часто комбинируют с глубокими нейросетями (deep reinforcement learning).






