Обучение с подкреплением: как AI учится на ошибках

Представьте ребёнка, который впервые касается горячей плиты. Ему не нужна лекция по термодинамике — одного ожога достаточно, чтобы больше не повторять эту ошибку. Именно по такому принципу работает обучение с подкреплением (Reinforcement Learning, RL) — один из трёх фундаментальных подходов в машинном обучении. Агент действует, получает обратную связь от среды и корректирует поведение. Никаких размеченных датасетов, никаких правильных ответов заранее — только опыт и последствия.

В 2025 году рынок RL-технологий оценивается более чем в 122 миллиарда долларов. При этом менее 5% развёрнутых AI-систем используют обучение с подкреплением напрямую. Парадокс? Нет — RL решает самые сложные задачи, где другие методы бессильны: от управления роботами до обучения языковых моделей давать полезные ответы вместо токсичных.

Как устроено обучение с подкреплением

В основе RL лежит простая схема взаимодействия четырёх элементов:


graph LR
    A["🤖 Агент"] -->|"Действие (action)"| B["🌍 Среда"]
    B -->|"Состояние (state)"| A
    B -->|"Награда (reward)"| A
    A -->|"Обновление стратегии"| C["📋 Политика (policy)"]
    C -->|"Выбор действия"| A

Агент — это алгоритм, который принимает решения. Среда — всё, с чем он взаимодействует (игровое поле, дорога, текстовый диалог). На каждом шаге агент наблюдает текущее состояние, выбирает действие согласно своей политике (стратегии поведения) и получает от среды награду — числовой сигнал, говорящий, насколько хорошим было решение.

Цель агента — не максимизировать немедленную награду, а найти стратегию, которая приносит максимальную суммарную награду за всё время работы.

Именно поэтому RL-агент может пожертвовать тактической выгодой ради стратегического преимущества — как шахматист, отдающий фигуру ради мата через пять ходов.

ℹ Чем RL отличается от других подходов

Обучение с учителем — модель учится на готовых парах «вопрос → правильный ответ». Обучение без учителя — модель ищет скрытые структуры в данных. Обучение с подкреплением — модель сама исследует среду и учится на последствиях своих решений, не имея заранее известных правильных ответов.

Ключевые концепции

Для понимания RL нужно знать несколько базовых понятий:

Марковский процесс принятия решений (MDP) — математическая модель среды, где будущее зависит только от текущего состояния, а не от всей истории
Функция ценности (Value function) — оценка, насколько «хорошо» находиться в определённом состоянии
Q-функция — оценка ценности конкретного действия в конкретном состоянии
Эксплуатация vs исследование (exploitation vs exploration) — вечная дилемма: использовать уже известную хорошую стратегию или рискнуть попробовать что-то новое

Алгоритмы: от Q-learning до PPO

За десятилетия развития RL-сообщество разработало десятки алгоритмов. Рассмотрим ключевые из них.

Q-learning и DQN

Q-learning (1989) — классический алгоритм, который строит таблицу значений Q(s, a) для каждой пары «состояние–действие». Агент обновляет эту таблицу после каждого шага, постепенно находя оптимальную стратегию.

Проблема Q-learning — он работает только с небольшим числом состояний. Для видеоигры с пиксельным входом таблица становится бесконечной.

Решение пришло в 2013 году от DeepMind: Deep Q-Network (DQN) заменяет таблицу нейросетью, которая приближает Q-функцию. DQN научился играть в 49 игр Atari на уровне человека, используя только пиксели экрана как входные данные.

# Упрощённый цикл Q-learning
import numpy as np

Q = np.zeros((num_states, num_actions))

for episode in range(num_episodes):
    state = env.reset()
    while not done:
        # Epsilon-greedy: исследование vs эксплуатация
        if np.random.random() < epsilon:
            action = env.action_space.sample()  # Исследование
        else:
            action = np.argmax(Q[state])         # Эксплуатация

        next_state, reward, done, _ = env.step(action)

        # Обновление Q-таблицы (формула Беллмана)
        Q[state, action] += alpha * (
            reward + gamma * np.max(Q[next_state]) - Q[state, action]
        )
        state = next_state

Policy Gradient и PPO

Альтернативный подход — Policy Gradient (градиент политики). Вместо оценки ценности действий эти методы напрямую оптимизируют стратегию агента, параметризованную нейросетью.

PPO (Proximal Policy Optimization), представленный OpenAI в 2017 году, стал стандартом индустрии. Его ключевая идея — ограничивать размер обновлений политики с помощью clipping-функции, чтобы обучение оставалось стабильным.

Характеристика	DQN	PPO
Тип подхода	Value-based (оценка ценности)	Policy-based (оптимизация политики)
Пространство действий	Только дискретное	Дискретное и непрерывное
Стабильность обучения	Средняя	Высокая
Сложность реализации	Средняя	Средняя
Где силён	Быстрая адаптация, простые среды	Сложные стратегические задачи
Применение	Игры, рекомендации	Робототехника, обучение LLM

💡 Как выбрать алгоритм

Если пространство действий дискретное и небольшое (например, 4 направления движения) — начните с DQN. Если действия непрерывные (углы поворота, сила толчка) или задача требует сложной стратегии — выбирайте PPO или его вариации.

Громкие победы: от AlphaGo до DeepSeek-R1

Обучение с подкреплением стоит за несколькими поворотными моментами в истории AI.

Игры как полигон

AlphaGo (2016) — победил чемпиона мира по Го Ли Седоля, комбинируя RL с методом Монте-Карло. Го считалась неприступной для AI из-за 10^170 возможных позиций
OpenAI Five (2019) — обыграл чемпионов мира по Dota 2, координируя 5 агентов в реальном времени с неполной информацией
AlphaStar (2019) — достиг уровня Grandmaster в StarCraft II — игре, требующей стратегического мышления и молниеносной реакции

Реальный мир

Но RL — далеко не только про игры:

Робототехника — роботы учатся ходить, манипулировать объектами и ориентироваться в пространстве без ручного программирования каждого движения
Автономное вождение — компания Wayve продемонстрировала, как RL-агент обучается удерживать полосу движения всего за один день тренировки
Рекомендательные системы — оптимизация последовательности рекомендаций с учётом долгосрочного вовлечения пользователя
Управление ресурсами — оптимизация энергопотребления дата-центров (Google DeepMind сократила затраты на охлаждение на 40%)

RLHF: как подкрепление сделало ChatGPT полезным

Пожалуй, самое революционное применение RL в последние годы — RLHF (Reinforcement Learning from Human Feedback), обучение с подкреплением на основе обратной связи от людей. Именно RLHF превратил языковые модели из генераторов правдоподобного текста в полезных ассистентов.


graph TD
    A["1. Предобучение LLM
на текстовых данных"] --> B["2. Supervised Fine-Tuning
на примерах диалогов"]
    B --> C["3. Обучение модели наград
люди ранжируют ответы"]
    C --> D["4. RL-оптимизация
PPO максимизирует награду"]
    D --> E["✅ Модель, выровненная
с человеческими предпочтениями"]
    style E fill:#2d6a4f,color:#fff

Процесс RLHF состоит из трёх этапов:

Supervised Fine-Tuning (SFT) — модель дообучается на качественных примерах диалогов
Обучение модели наград (Reward Model) — людям показывают несколько вариантов ответа, они ранжируют их от лучшего к худшему. На этих данных обучается отдельная модель, предсказывающая «человечность» ответа
RL-оптимизация — основная модель обучается с помощью PPO, где наградой служат оценки от модели наград

RLHF стал индустриальным стандартом для фронтирных моделей: GPT-4, Claude, Gemini — все используют вариации этого подхода для выравнивания с человеческими предпочтениями.

Новый рубеж: RLVR и DeepSeek-R1

В январе 2025 года DeepSeek выпустил модель DeepSeek-R1, которая продемонстрировала новый подход — Reinforcement Learning with Verifiable Rewards (RLVR). Вместо субъективных человеческих оценок используются объективные, проверяемые сигналы: правильно ли решена математическая задача? Компилируется ли код? Логически ли верен вывод?

Ключевой алгоритм — GRPO (Group Relative Policy Optimization). В отличие от PPO, GRPO:

Убирает дорогостоящую модель «критика» (value model)
Генерирует группу ответов на один запрос и сравнивает их между собой
Нормализует награды внутри группы, оценивая каждый ответ относительно остальных

Результат — DeepSeek-R1 достиг уровня рассуждений, сопоставимого с OpenAI o1, при значительно меньших затратах на обучение. Это сделало RLVR одним из главных трендов 2025–2026 годов.

📝 RLHF vs RLVR: в чём разница

RLHF: «Людям показали два ответа. 70% выбрали ответ A → модель учится генерировать ответы, похожие на A.» Проблема: дорого, медленно, субъективно.

RLVR: «Модель решила уравнение x²=4, ответила x=2. Проверка: 2²=4 ✓ → награда +1.» Проблема: работает только там, где ответ можно проверить автоматически.

На практике современные модели используют комбинацию обоих подходов.

Проблемы и ограничения RL

Обучение с подкреплением — мощный, но капризный инструмент. Вот ключевые вызовы:

Sample Inefficiency

RL-агенту нужны миллионы взаимодействий со средой, чтобы научиться даже простым вещам. AlphaStar провёл эквивалент 200 лет игрового времени в StarCraft II. В реальном мире (робототехника, медицина) каждая попытка стоит времени, денег и может быть опасной.

Reward Hacking

Агенты находят неожиданные способы максимизировать награду, не решая реальную задачу. Классический пример: RL-агент в гоночной игре научился бесконечно кружить, собирая бонусы, вместо того чтобы финишировать. В контексте LLM это проявляется как «угождение» пользователю вместо предоставления правильной информации.

Безопасность и стабильность

RL-агент исследует среду методом проб и ошибок. В симуляции это допустимо, но в реальности ошибки робота или автономного автомобиля могут стоить жизней. Обеспечение безопасного исследования (safe exploration) — одна из открытых проблем.

Проблема	Суть	Текущие решения
Sample inefficiency	Нужны миллионы попыток	Предобучение в симуляции, transfer learning
Reward hacking	Агент «обманывает» систему наград	RLVR с верифицируемыми наградами, constrained RL
Нестабильность обучения	Производительность скачет	PPO clipping, нормализация наград
Разрыв sim-to-real	Навыки из симуляции не переносятся	Domain randomization, sim-to-real transfer
Безопасность	Ошибки в реальном мире опасны	Safe RL, ограничения на действия

⚠ Reward hacking в LLM

Когда языковую модель оптимизируют через RLHF, она может научиться генерировать ответы, которые «нравятся» модели наград, но не являются правильными или полезными. Это одна из причин, по которой Anthropic разработала подход Constitutional AI — дополнительный слой защиты поверх RLHF.

Заключение: куда движется RL

Обучение с подкреплением прошло путь от табличного Q-learning до технологии, стоящей за рассуждениями фронтирных языковых моделей. Ключевые тенденции 2025–2026 годов:

Сращивание RL и LLM — пост-обучение моделей через RL становится важнее, чем наращивание размера. Фокус смещается с «больше параметров» на «умнее обучение»
RLVR и объективные награды — там, где ответ можно проверить, верифицируемые награды вытесняют дорогую человеческую разметку
Мультиагентные системы — несколько RL-агентов учатся сотрудничать и конкурировать, решая задачи, недоступные одному агенту
Онлайн-RLHF — непрерывное обновление модели на основе свежей обратной связи, а не одноразовый этап обучения

Обучение с подкреплением — это не просто ещё один метод машинного обучения. Это парадигма, в которой AI учится так же, как учатся живые существа: через действие, последствия и адаптацию. И именно эта парадигма определяет, как будут развиваться AI-системы следующего поколения.