OpenPipe ART: обучение агентов через GRPO прямо на задачах

Sun, 24 May 2026 03:12:30 +0300

Обучение агентов прямо на боевых задачах

ART — это открытый RL-фреймворк, который повышает надёжность агентов, позволяя языковым моделям учиться на собственном опыте. Компания OpenPipe анонсировала его в апреле 2025 года, и с тех пор инструмент активно развивается: ART позволяет обучать многошаговых агентов для реальных задач с помощью GRPO и поддерживает модели Qwen3.6, GPT-OSS, Llama и другие.

ℹ Что такое GRPO

GRPO (Group Relative Policy Optimization — групповая относительная оптимизация политики) — метод обучения с подкреплением для LLM. В отличие от классического RLHF, GRPO сравнивает несколько траекторий агента друг с другом внутри группы и обновляет веса только тогда, когда поведение реально улучшается.

Как работает ART

ART предоставляет удобную обёртку для интеграции GRPO в любое Python-приложение. Архитектура построена на разделении клиента и сервера: ART предоставляет удобные обёртки для внедрения RL-обучения в существующие приложения, абстрагируя тренировочный сервер в модульный сервис, с которым вашему коду не нужно взаимодействовать напрямую.

GRPO on AI-Uchi — Всё об искусственном интеллекте

OpenPipe ART: обучение агентов через GRPO прямо на задачах

Обучение агентов прямо на боевых задачах

Как работает ART