
OpenPipe ART: обучение агентов через GRPO прямо на задачах
OpenPipe выпустила открытый фреймворк ART для обучения LLM-агентов с помощью GRPO. Модель Qwen 2.5 14B обошла o3 по точности за $80 на одном GPU.
Обучение агентов прямо на боевых задачах
ART — это открытый RL-фреймворк, который повышает надёжность агентов, позволяя языковым моделям учиться на собственном опыте. Компания OpenPipe анонсировала его в апреле 2025 года, и с тех пор инструмент активно развивается: ART позволяет обучать многошаговых агентов для реальных задач с помощью GRPO и поддерживает модели Qwen3.6, GPT-OSS, Llama и другие.
Как работает ART
ART предоставляет удобную обёртку для интеграции GRPO в любое Python-приложение. Архитектура построена на разделении клиента и сервера: ART предоставляет удобные обёртки для внедрения RL-обучения в существующие приложения, абстрагируя тренировочный сервер в модульный сервис, с которым вашему коду не нужно взаимодействовать напрямую.
Можно запустить ART-клиент на ноутбуке, а ART-сервер сам поднимет эфемерное GPU-окружение — или использовать локальный GPU.
Процесс обучения выглядит так:
graph TD
A[Агент выполняет задачу] --> B[Формируется Trajectory\nсообщения и действия]
B --> C[Код назначает Reward\nоценку за результат]
C --> D[Группа траекторий\nотправляется на сервер]
D --> E[Сервер обучает модель\nчерез GRPO]
E --> F[Обновлённая модель\nзапускается снова]
F --> A
По мере того как агент выполняет задачу, каждое сообщение системы, пользователя и ассистента сохраняется в объекте Trajectory. Когда роллаут завершается, ваш код назначает награду этой траектории, отражающую качество работы LLM.
# Пример кода с Serverless RL бэкендом
from art.serverless.backend import ServerlessBackend
import art
model = art.TrainableModel(
project="voice-agent",
name="agent-001",
base_model="OpenPipe/Qwen3-14B-Instruct"
)
backend = ServerlessBackend(api_key="your_wandb_api_key")
model.register(backend)
# Итерации за минуты, а не часы!
Поддерживаемые модели и интеграции
| Возможность | Описание |
|---|---|
| Поддерживаемые модели | Qwen2.5, Qwen3, Llama, GPT-OSS и все совместимые с vLLM |
| Бэкенды обучения | Локальный GPU, Serverless RL (W&B) |
| Интеграции наблюдаемости | W&B, Langfuse, OpenPipe |
| Интеграция с агентами | LangGraph, MCP-серверы |
| Лицензия | Apache 2.0 |
Интеграции с такими платформами, как W&B, Langfuse и OpenPipe, обеспечивают гибкую наблюдаемость и упрощают отладку.
ART теперь бесшовно интегрируется с LangGraph — обучайте ваших LangGraph-агентов с помощью RL для более умного многошагового рассуждения и улучшенного использования инструментов.
Также появился MCP·RL: автоматическое обучение моделей эффективному использованию инструментов MCP-сервера через reinforcement learning.
Результат: Qwen 14B против o3 за $80
Главное доказательство работоспособности ART — проект ART·E (email-агент). Агент ART·E на базе Qwen2.5-14B достиг точности 96%, превзойдя o3, o4-mini, Gemini 2.5 Pro и GPT-4.1 — с приростом +56% к базовой модели через одно лишь RL-обучение.
Итоговая модель оказалась точнее, быстрее и дешевле o3, допуская меньше ошибок и галлюцинаций — и всё это при обучении на одном GPU H100 менее чем за $80.
«Обращайтесь со своим агентом как с новым сотрудником — давайте обратную связь, пока он не научится вести себя правильно.» — Кайл Корбитт, OpenPipe
Корбитт показывает, что точная настройка 14-миллиардной open-source модели с помощью RL позволяет не только снизить количество ошибок, но и превзойти лучшие модели — o3 — на сложных задачах, одновременно сократив задержку с 5.5 с до 1 с.
Значение для отрасли
ART отвечает на вопрос, который стоит перед каждой командой, строящей продуктовых агентов: как добиться надёжности без постоянного перехода на более крупные и дорогие модели. ART — открытый RL-фреймворк, который повышает надёжность агентов, позволяя LLM учиться на опыте.
Serverless RL от W&B — первый публично доступный сервис для гибкого обучения моделей с подкреплением: он автоматически управляет инфраструктурой обучения и инференса, позволяя сосредоточиться на данных, среде и функции вознаграждения.
Открытый исходный код как модели, так и обучающего кода добавляет значительную ценность для сообщества LLMOps, позволяя специалистам воспроизвести и развить эти результаты. Репозиторий доступен на GitHub под лицензией Apache 2.0.