Китайская Z.ai (бывшая Zhipu AI) выпустила GLM 5.1 — open-source модель с открытыми весами под MIT-лицензией. В реальных агентных тестах она вышла на уровень Claude Opus 4.6, при этом стоит в три раза меньше. Всё больше разработчиков считают её новым эталоном соотношения цена/качество для автономных AI-агентов.

Что показали тесты

Разработчик, опубликовавший результаты на Reddit, тестировал GLM 5.1 через OpenClaw — агентную платформу, где модели решают задачи, отправленные реальными пользователями. Формат — Chatbot Arena: модели соревнуются друг с другом, победителя выбирает LLM-судья. Это принципиально отличается от статических бенчмарков, где многие модели умело «читают шпаргалку».

Я не доверяю никаким статическим бенчмаркам. Видел слишком много моделей, заточенных под лидерборды, которые в реальных агентных задачах работают плохо.

Результат GLM 5.1 оказался неожиданным: модель уступила только Claude Opus 4.6, обойдя GPT-5.4, Gemini и других конкурентов. При этом стоимость одного прогона в тесте составила около $0.40 против $1.20 у Opus — ровно треть цены.

ℹ Независимые бенчмарки подтверждают
На SWE-Bench Pro (реальные задачи по исправлению кода в открытых репозиториях) GLM 5.1 набрал 58.4 — выше, чем у GPT-5.4 и Claude Opus 4.6. На AIME 2026 — 95.3 балла. На GPQA-Diamond (вопросы уровня аспирантуры по естественным наукам) — 86.2.

Ключевые параметры модели

GLM 5.1 — это 754-миллиардная модель с архитектурой Mixture of Experts (смесь экспертов). Zhipu называет её «агентной»: она способна вести автономную работу на протяжении 8 часов, выполняя тысячи вызовов инструментов без потери фокуса на задаче.

ПараметрGLM 5.1Claude Opus 4.6GPT-5.4
ТипOpen-source (MIT)ПроприетарнаяПроприетарная
Параметры754B (MoE)Не раскрытоНе раскрыто
Цена (вход/выход, $1M токенов)$1.40 / $4.40$5.00 / $25.00~$5.00 / ~$20.00
SWE-Bench Pro58.4 (SOTA)55.0~52.0
Автономная работадо 8 часов
Prompt cachingДаДаДа

graph LR
    A[GLM 5.1\n$0.40/прогон] -->|«3x дешевле»| B[Claude Opus 4.6\n$1.20/прогон]
    A -->|«обходит»| C[GPT-5.4]
    A -->|«обходит»| D[Gemini 3.1 Pro]
    A -->|«обходит»| E[Qwen 3.6]
    B -->|«лучший»| F[Топ агентного\nбенчмарка]
    A -->|«второй»| F

Что это значит для рынка

Это уже второй удар по ценовому позиционированию Anthropic и OpenAI за последние месяцы. Сначала DeepSeek обрушил стоимость рассуждений. Теперь GLM 5.1 делает то же самое с агентными задачами.

💡 Для разработчиков агентов
Если вы строите агентный пайплайн и Opus слишком дорог — GLM 5.1 стоит проверить первым. Модель доступна через API на api.z.ai и bigmodel.cn, веса выложены на Hugging Face под MIT-лицензией.

Отдельно стоит отметить Qwen 3.6 — ещё одну модель, которая хорошо выступила в тестах OpenClaw. Её минус: отсутствие prompt caching (кэширования промптов), что существенно увеличивает стоимость при длинных системных инструкциях — типичных для агентных сценариев.

⚠ Осторожно с выводами
Результаты основаны на тестировании одного разработчика через одну платформу (OpenClaw). Независимых воспроизведений пока немного. Прежде чем мигрировать инфраструктуру — проверьте на своих задачах.

Тем не менее независимые бенчмарки (SWE-Bench Pro, AIME 2026, GPQA-Diamond) согласуются с выводами: GLM 5.1 — это полноценный претендент на звание лучшей агентной модели с открытыми весами прямо сейчас.