<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>GRPO on AI-Uchi — Всё об искусственном интеллекте</title><link>/tags/grpo/</link><description>Recent content in GRPO on AI-Uchi — Всё об искусственном интеллекте</description><generator>Hugo</generator><language>ru</language><lastBuildDate>Sun, 24 May 2026 03:12:30 +0300</lastBuildDate><atom:link href="/tags/grpo/index.xml" rel="self" type="application/rss+xml"/><item><title>OpenPipe ART: обучение агентов через GRPO прямо на задачах</title><link>/news/openpipe-art-agent-reinforcement-trainer-grpo/</link><pubDate>Sun, 24 May 2026 03:12:30 +0300</pubDate><guid>/news/openpipe-art-agent-reinforcement-trainer-grpo/</guid><description>&lt;h2 id="обучение-агентов-прямо-на-боевых-задачах"&gt;Обучение агентов прямо на боевых задачах&lt;/h2&gt;
&lt;p&gt;ART — это открытый RL-фреймворк, который повышает надёжность агентов, позволяя языковым моделям учиться на собственном опыте. Компания OpenPipe анонсировала его в апреле 2025 года, и с тех пор инструмент активно развивается: ART позволяет обучать многошаговых агентов для реальных задач с помощью GRPO и поддерживает модели Qwen3.6, GPT-OSS, Llama и другие.&lt;/p&gt;



&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Что такое GRPO&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;GRPO&lt;/strong&gt; (Group Relative Policy Optimization — групповая относительная оптимизация политики) — метод обучения с подкреплением для LLM. В отличие от классического RLHF, GRPO сравнивает несколько траекторий агента друг с другом внутри группы и обновляет веса только тогда, когда поведение реально улучшается.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="как-работает-art"&gt;Как работает ART&lt;/h2&gt;
&lt;p&gt;ART предоставляет удобную обёртку для интеграции GRPO в любое Python-приложение. Архитектура построена на разделении клиента и сервера: ART предоставляет удобные обёртки для внедрения RL-обучения в существующие приложения, абстрагируя тренировочный сервер в модульный сервис, с которым вашему коду не нужно взаимодействовать напрямую.&lt;/p&gt;</description></item></channel></rss>