GLM 5.1 обходит все модели, кроме Opus, втрое дешевле
Zhipu AI выпустила GLM 5.1 — open-source модель на 754B параметров, которая превзошла GPT-5.4 и Gemini на агентных задачах и стоит в 3-5 раз дешевле Claude Opus 4.6.
Китайская Z.ai (бывшая Zhipu AI) выпустила GLM 5.1 — open-source модель с открытыми весами под MIT-лицензией. В реальных агентных тестах она вышла на уровень Claude Opus 4.6, при этом стоит в три раза меньше. Всё больше разработчиков считают её новым эталоном соотношения цена/качество для автономных AI-агентов.
Что показали тесты
Разработчик, опубликовавший результаты на Reddit, тестировал GLM 5.1 через OpenClaw — агентную платформу, где модели решают задачи, отправленные реальными пользователями. Формат — Chatbot Arena: модели соревнуются друг с другом, победителя выбирает LLM-судья. Это принципиально отличается от статических бенчмарков, где многие модели умело «читают шпаргалку».
Я не доверяю никаким статическим бенчмаркам. Видел слишком много моделей, заточенных под лидерборды, которые в реальных агентных задачах работают плохо.
Результат GLM 5.1 оказался неожиданным: модель уступила только Claude Opus 4.6, обойдя GPT-5.4, Gemini и других конкурентов. При этом стоимость одного прогона в тесте составила около $0.40 против $1.20 у Opus — ровно треть цены.
Ключевые параметры модели
GLM 5.1 — это 754-миллиардная модель с архитектурой Mixture of Experts (смесь экспертов). Zhipu называет её «агентной»: она способна вести автономную работу на протяжении 8 часов, выполняя тысячи вызовов инструментов без потери фокуса на задаче.
| Параметр | GLM 5.1 | Claude Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| Тип | Open-source (MIT) | Проприетарная | Проприетарная |
| Параметры | 754B (MoE) | Не раскрыто | Не раскрыто |
| Цена (вход/выход, $1M токенов) | $1.40 / $4.40 | $5.00 / $25.00 | ~$5.00 / ~$20.00 |
| SWE-Bench Pro | 58.4 (SOTA) | 55.0 | ~52.0 |
| Автономная работа | до 8 часов | — | — |
| Prompt caching | Да | Да | Да |
graph LR
A[GLM 5.1\n$0.40/прогон] -->|«3x дешевле»| B[Claude Opus 4.6\n$1.20/прогон]
A -->|«обходит»| C[GPT-5.4]
A -->|«обходит»| D[Gemini 3.1 Pro]
A -->|«обходит»| E[Qwen 3.6]
B -->|«лучший»| F[Топ агентного\nбенчмарка]
A -->|«второй»| F
Что это значит для рынка
Это уже второй удар по ценовому позиционированию Anthropic и OpenAI за последние месяцы. Сначала DeepSeek обрушил стоимость рассуждений. Теперь GLM 5.1 делает то же самое с агентными задачами.
Отдельно стоит отметить Qwen 3.6 — ещё одну модель, которая хорошо выступила в тестах OpenClaw. Её минус: отсутствие prompt caching (кэширования промптов), что существенно увеличивает стоимость при длинных системных инструкциях — типичных для агентных сценариев.
Тем не менее независимые бенчмарки (SWE-Bench Pro, AIME 2026, GPQA-Diamond) согласуются с выводами: GLM 5.1 — это полноценный претендент на звание лучшей агентной модели с открытыми весами прямо сейчас.