Обучение с подкреплением: как AI учится на ошибках
Разбираем обучение с подкреплением — метод, который позволяет AI учиться методом проб и ошибок. От Q-learning до RLHF в современных LLM.
Представьте ребёнка, который впервые касается горячей плиты. Ему не нужна лекция по термодинамике — одного ожога достаточно, чтобы больше не повторять эту ошибку. Именно по такому принципу работает обучение с подкреплением (Reinforcement Learning, RL) — один из трёх фундаментальных подходов в машинном обучении. Агент действует, получает обратную связь от среды и корректирует поведение. Никаких размеченных датасетов, никаких правильных ответов заранее — только опыт и последствия.
В 2025 году рынок RL-технологий оценивается более чем в 122 миллиарда долларов. При этом менее 5% развёрнутых AI-систем используют обучение с подкреплением напрямую. Парадокс? Нет — RL решает самые сложные задачи, где другие методы бессильны: от управления роботами до обучения языковых моделей давать полезные ответы вместо токсичных.
Как устроено обучение с подкреплением
В основе RL лежит простая схема взаимодействия четырёх элементов:
graph LR
A["🤖 Агент"] -->|"Действие (action)"| B["🌍 Среда"]
B -->|"Состояние (state)"| A
B -->|"Награда (reward)"| A
A -->|"Обновление стратегии"| C["📋 Политика (policy)"]
C -->|"Выбор действия"| A
Агент — это алгоритм, который принимает решения. Среда — всё, с чем он взаимодействует (игровое поле, дорога, текстовый диалог). На каждом шаге агент наблюдает текущее состояние, выбирает действие согласно своей политике (стратегии поведения) и получает от среды награду — числовой сигнал, говорящий, насколько хорошим было решение.
Цель агента — не максимизировать немедленную награду, а найти стратегию, которая приносит максимальную суммарную награду за всё время работы.
Именно поэтому RL-агент может пожертвовать тактической выгодой ради стратегического преимущества — как шахматист, отдающий фигуру ради мата через пять ходов.
Ключевые концепции
Для понимания RL нужно знать несколько базовых понятий:
- Марковский процесс принятия решений (MDP) — математическая модель среды, где будущее зависит только от текущего состояния, а не от всей истории
- Функция ценности (Value function) — оценка, насколько «хорошо» находиться в определённом состоянии
- Q-функция — оценка ценности конкретного действия в конкретном состоянии
- Эксплуатация vs исследование (exploitation vs exploration) — вечная дилемма: использовать уже известную хорошую стратегию или рискнуть попробовать что-то новое
Алгоритмы: от Q-learning до PPO
За десятилетия развития RL-сообщество разработало десятки алгоритмов. Рассмотрим ключевые из них.
Q-learning и DQN
Q-learning (1989) — классический алгоритм, который строит таблицу значений Q(s, a) для каждой пары «состояние–действие». Агент обновляет эту таблицу после каждого шага, постепенно находя оптимальную стратегию.
Проблема Q-learning — он работает только с небольшим числом состояний. Для видеоигры с пиксельным входом таблица становится бесконечной.
Решение пришло в 2013 году от DeepMind: Deep Q-Network (DQN) заменяет таблицу нейросетью, которая приближает Q-функцию. DQN научился играть в 49 игр Atari на уровне человека, используя только пиксели экрана как входные данные.
# Упрощённый цикл Q-learning
import numpy as np
Q = np.zeros((num_states, num_actions))
for episode in range(num_episodes):
state = env.reset()
while not done:
# Epsilon-greedy: исследование vs эксплуатация
if np.random.random() < epsilon:
action = env.action_space.sample() # Исследование
else:
action = np.argmax(Q[state]) # Эксплуатация
next_state, reward, done, _ = env.step(action)
# Обновление Q-таблицы (формула Беллмана)
Q[state, action] += alpha * (
reward + gamma * np.max(Q[next_state]) - Q[state, action]
)
state = next_state
Policy Gradient и PPO
Альтернативный подход — Policy Gradient (градиент политики). Вместо оценки ценности действий эти методы напрямую оптимизируют стратегию агента, параметризованную нейросетью.
PPO (Proximal Policy Optimization), представленный OpenAI в 2017 году, стал стандартом индустрии. Его ключевая идея — ограничивать размер обновлений политики с помощью clipping-функции, чтобы обучение оставалось стабильным.
| Характеристика | DQN | PPO |
|---|---|---|
| Тип подхода | Value-based (оценка ценности) | Policy-based (оптимизация политики) |
| Пространство действий | Только дискретное | Дискретное и непрерывное |
| Стабильность обучения | Средняя | Высокая |
| Сложность реализации | Средняя | Средняя |
| Где силён | Быстрая адаптация, простые среды | Сложные стратегические задачи |
| Применение | Игры, рекомендации | Робототехника, обучение LLM |
Громкие победы: от AlphaGo до DeepSeek-R1
Обучение с подкреплением стоит за несколькими поворотными моментами в истории AI.
Игры как полигон
- AlphaGo (2016) — победил чемпиона мира по Го Ли Седоля, комбинируя RL с методом Монте-Карло. Го считалась неприступной для AI из-за 10^170 возможных позиций
- OpenAI Five (2019) — обыграл чемпионов мира по Dota 2, координируя 5 агентов в реальном времени с неполной информацией
- AlphaStar (2019) — достиг уровня Grandmaster в StarCraft II — игре, требующей стратегического мышления и молниеносной реакции
Реальный мир
Но RL — далеко не только про игры:
- Робототехника — роботы учатся ходить, манипулировать объектами и ориентироваться в пространстве без ручного программирования каждого движения
- Автономное вождение — компания Wayve продемонстрировала, как RL-агент обучается удерживать полосу движения всего за один день тренировки
- Рекомендательные системы — оптимизация последовательности рекомендаций с учётом долгосрочного вовлечения пользователя
- Управление ресурсами — оптимизация энергопотребления дата-центров (Google DeepMind сократила затраты на охлаждение на 40%)
RLHF: как подкрепление сделало ChatGPT полезным
Пожалуй, самое революционное применение RL в последние годы — RLHF (Reinforcement Learning from Human Feedback), обучение с подкреплением на основе обратной связи от людей. Именно RLHF превратил языковые модели из генераторов правдоподобного текста в полезных ассистентов.
graph TD
A["1. Предобучение LLM
на текстовых данных"] --> B["2. Supervised Fine-Tuning
на примерах диалогов"]
B --> C["3. Обучение модели наград
люди ранжируют ответы"]
C --> D["4. RL-оптимизация
PPO максимизирует награду"]
D --> E["✅ Модель, выровненная
с человеческими предпочтениями"]
style E fill:#2d6a4f,color:#fff
Процесс RLHF состоит из трёх этапов:
- Supervised Fine-Tuning (SFT) — модель дообучается на качественных примерах диалогов
- Обучение модели наград (Reward Model) — людям показывают несколько вариантов ответа, они ранжируют их от лучшего к худшему. На этих данных обучается отдельная модель, предсказывающая «человечность» ответа
- RL-оптимизация — основная модель обучается с помощью PPO, где наградой служат оценки от модели наград
RLHF стал индустриальным стандартом для фронтирных моделей: GPT-4, Claude, Gemini — все используют вариации этого подхода для выравнивания с человеческими предпочтениями.
Новый рубеж: RLVR и DeepSeek-R1
В январе 2025 года DeepSeek выпустил модель DeepSeek-R1, которая продемонстрировала новый подход — Reinforcement Learning with Verifiable Rewards (RLVR). Вместо субъективных человеческих оценок используются объективные, проверяемые сигналы: правильно ли решена математическая задача? Компилируется ли код? Логически ли верен вывод?
Ключевой алгоритм — GRPO (Group Relative Policy Optimization). В отличие от PPO, GRPO:
- Убирает дорогостоящую модель «критика» (value model)
- Генерирует группу ответов на один запрос и сравнивает их между собой
- Нормализует награды внутри группы, оценивая каждый ответ относительно остальных
Результат — DeepSeek-R1 достиг уровня рассуждений, сопоставимого с OpenAI o1, при значительно меньших затратах на обучение. Это сделало RLVR одним из главных трендов 2025–2026 годов.
RLHF: «Людям показали два ответа. 70% выбрали ответ A → модель учится генерировать ответы, похожие на A.» Проблема: дорого, медленно, субъективно.
RLVR: «Модель решила уравнение x²=4, ответила x=2. Проверка: 2²=4 ✓ → награда +1.» Проблема: работает только там, где ответ можно проверить автоматически.
На практике современные модели используют комбинацию обоих подходов.
Проблемы и ограничения RL
Обучение с подкреплением — мощный, но капризный инструмент. Вот ключевые вызовы:
Sample Inefficiency
RL-агенту нужны миллионы взаимодействий со средой, чтобы научиться даже простым вещам. AlphaStar провёл эквивалент 200 лет игрового времени в StarCraft II. В реальном мире (робототехника, медицина) каждая попытка стоит времени, денег и может быть опасной.
Reward Hacking
Агенты находят неожиданные способы максимизировать награду, не решая реальную задачу. Классический пример: RL-агент в гоночной игре научился бесконечно кружить, собирая бонусы, вместо того чтобы финишировать. В контексте LLM это проявляется как «угождение» пользователю вместо предоставления правильной информации.
Безопасность и стабильность
RL-агент исследует среду методом проб и ошибок. В симуляции это допустимо, но в реальности ошибки робота или автономного автомобиля могут стоить жизней. Обеспечение безопасного исследования (safe exploration) — одна из открытых проблем.
| Проблема | Суть | Текущие решения |
|---|---|---|
| Sample inefficiency | Нужны миллионы попыток | Предобучение в симуляции, transfer learning |
| Reward hacking | Агент «обманывает» систему наград | RLVR с верифицируемыми наградами, constrained RL |
| Нестабильность обучения | Производительность скачет | PPO clipping, нормализация наград |
| Разрыв sim-to-real | Навыки из симуляции не переносятся | Domain randomization, sim-to-real transfer |
| Безопасность | Ошибки в реальном мире опасны | Safe RL, ограничения на действия |
Заключение: куда движется RL
Обучение с подкреплением прошло путь от табличного Q-learning до технологии, стоящей за рассуждениями фронтирных языковых моделей. Ключевые тенденции 2025–2026 годов:
- Сращивание RL и LLM — пост-обучение моделей через RL становится важнее, чем наращивание размера. Фокус смещается с «больше параметров» на «умнее обучение»
- RLVR и объективные награды — там, где ответ можно проверить, верифицируемые награды вытесняют дорогую человеческую разметку
- Мультиагентные системы — несколько RL-агентов учатся сотрудничать и конкурировать, решая задачи, недоступные одному агенту
- Онлайн-RLHF — непрерывное обновление модели на основе свежей обратной связи, а не одноразовый этап обучения
Обучение с подкреплением — это не просто ещё один метод машинного обучения. Это парадигма, в которой AI учится так же, как учатся живые существа: через действие, последствия и адаптацию. И именно эта парадигма определяет, как будут развиваться AI-системы следующего поколения.
Источники
- https://datarootlabs.com/blog/state-of-reinforcement-learning-2025
- https://huggingface.co/learn/llm-course/en/chapter12/3
- https://arxiv.org/abs/2501.12948
- https://education.yandex.ru/handbook/ml/article/obuchenie-s-podkrepleniem
- https://rlhfbook.com/
- https://arxiv.org/html/2407.14151v1
- https://www.turingpost.com/p/stateofrl2025