OpenPipe ART: обучение агентов через GRPO прямо на задачах

Обучение агентов прямо на боевых задачах

ART — это открытый RL-фреймворк, который повышает надёжность агентов, позволяя языковым моделям учиться на собственном опыте. Компания OpenPipe анонсировала его в апреле 2025 года, и с тех пор инструмент активно развивается: ART позволяет обучать многошаговых агентов для реальных задач с помощью GRPO и поддерживает модели Qwen3.6, GPT-OSS, Llama и другие.

ℹ Что такое GRPO

GRPO (Group Relative Policy Optimization — групповая относительная оптимизация политики) — метод обучения с подкреплением для LLM. В отличие от классического RLHF, GRPO сравнивает несколько траекторий агента друг с другом внутри группы и обновляет веса только тогда, когда поведение реально улучшается.

Как работает ART

ART предоставляет удобную обёртку для интеграции GRPO в любое Python-приложение. Архитектура построена на разделении клиента и сервера: ART предоставляет удобные обёртки для внедрения RL-обучения в существующие приложения, абстрагируя тренировочный сервер в модульный сервис, с которым вашему коду не нужно взаимодействовать напрямую.

Можно запустить ART-клиент на ноутбуке, а ART-сервер сам поднимет эфемерное GPU-окружение — или использовать локальный GPU.

Процесс обучения выглядит так:


graph TD
    A[Агент выполняет задачу] --> B[Формируется Trajectory\nсообщения и действия]
    B --> C[Код назначает Reward\nоценку за результат]
    C --> D[Группа траекторий\nотправляется на сервер]
    D --> E[Сервер обучает модель\nчерез GRPO]
    E --> F[Обновлённая модель\nзапускается снова]
    F --> A

По мере того как агент выполняет задачу, каждое сообщение системы, пользователя и ассистента сохраняется в объекте Trajectory. Когда роллаут завершается, ваш код назначает награду этой траектории, отражающую качество работы LLM.

# Пример кода с Serverless RL бэкендом
from art.serverless.backend import ServerlessBackend
import art

model = art.TrainableModel(
    project="voice-agent",
    name="agent-001",
    base_model="OpenPipe/Qwen3-14B-Instruct"
)

backend = ServerlessBackend(api_key="your_wandb_api_key")
model.register(backend)
# Итерации за минуты, а не часы!

Поддерживаемые модели и интеграции

Возможность	Описание
Поддерживаемые модели	Qwen2.5, Qwen3, Llama, GPT-OSS и все совместимые с vLLM
Бэкенды обучения	Локальный GPU, Serverless RL (W&B)
Интеграции наблюдаемости	W&B, Langfuse, OpenPipe
Интеграция с агентами	LangGraph, MCP-серверы
Лицензия	Apache 2.0

Интеграции с такими платформами, как W&B, Langfuse и OpenPipe, обеспечивают гибкую наблюдаемость и упрощают отладку.

💡 Новые возможности

ART теперь бесшовно интегрируется с LangGraph — обучайте ваших LangGraph-агентов с помощью RL для более умного многошагового рассуждения и улучшенного использования инструментов.

Также появился MCP·RL: автоматическое обучение моделей эффективному использованию инструментов MCP-сервера через reinforcement learning.

Результат: Qwen 14B против o3 за $80

Главное доказательство работоспособности ART — проект ART·E (email-агент). Агент ART·E на базе Qwen2.5-14B достиг точности 96%, превзойдя o3, o4-mini, Gemini 2.5 Pro и GPT-4.1 — с приростом +56% к базовой модели через одно лишь RL-обучение.

Итоговая модель оказалась точнее, быстрее и дешевле o3, допуская меньше ошибок и галлюцинаций — и всё это при обучении на одном GPU H100 менее чем за $80.

«Обращайтесь со своим агентом как с новым сотрудником — давайте обратную связь, пока он не научится вести себя правильно.» — Кайл Корбитт, OpenPipe

Корбитт показывает, что точная настройка 14-миллиардной open-source модели с помощью RL позволяет не только снизить количество ошибок, но и превзойти лучшие модели — o3 — на сложных задачах, одновременно сократив задержку с 5.5 с до 1 с.

📝 AutoRL: обучение без данных

AutoRL позволяет обучать кастомные AI-модели без размеченных данных — с помощью автоматической генерации входных данных и оценки через RULER. Это открывает возможность применять RL даже там, где создание датасета вручную невозможно или слишком дорого.

Значение для отрасли

ART отвечает на вопрос, который стоит перед каждой командой, строящей продуктовых агентов: как добиться надёжности без постоянного перехода на более крупные и дорогие модели. ART — открытый RL-фреймворк, который повышает надёжность агентов, позволяя LLM учиться на опыте.

Serverless RL от W&B — первый публично доступный сервис для гибкого обучения моделей с подкреплением: он автоматически управляет инфраструктурой обучения и инференса, позволяя сосредоточиться на данных, среде и функции вознаграждения.

Открытый исходный код как модели, так и обучающего кода добавляет значительную ценность для сообщества LLMOps, позволяя специалистам воспроизвести и развить эти результаты. Репозиторий доступен на GitHub под лицензией Apache 2.0.

Обучение агентов прямо на боевых задачах

Как работает ART

Поддерживаемые модели и интеграции

Результат: Qwen 14B против o3 за $80

Значение для отрасли

Источники

Похожие статьи

HuggingFace Transformers: единый стандарт для AI-моделей

TradingAgents-CN v1.0.1: мультиагентный ИИ для анализа акций

wshobson/agents: маркетплейс плагинов для шести AI-инструментов

LLM разрушают карьеру: исповедь инженера с 10-летним стажем

Lathe: LLM учит тебя, а не думает за тебя