GLM 5.1 обходит все модели, кроме Opus, втрое дешевле

Китайская Z.ai (бывшая Zhipu AI) выпустила GLM 5.1 — open-source модель с открытыми весами под MIT-лицензией. В реальных агентных тестах она вышла на уровень Claude Opus 4.6, при этом стоит в три раза меньше. Всё больше разработчиков считают её новым эталоном соотношения цена/качество для автономных AI-агентов.

Что показали тесты

Разработчик, опубликовавший результаты на Reddit, тестировал GLM 5.1 через OpenClaw — агентную платформу, где модели решают задачи, отправленные реальными пользователями. Формат — Chatbot Arena: модели соревнуются друг с другом, победителя выбирает LLM-судья. Это принципиально отличается от статических бенчмарков, где многие модели умело «читают шпаргалку».

Я не доверяю никаким статическим бенчмаркам. Видел слишком много моделей, заточенных под лидерборды, которые в реальных агентных задачах работают плохо.

Результат GLM 5.1 оказался неожиданным: модель уступила только Claude Opus 4.6, обойдя GPT-5.4, Gemini и других конкурентов. При этом стоимость одного прогона в тесте составила около $0.40 против $1.20 у Opus — ровно треть цены.

ℹ Независимые бенчмарки подтверждают

На SWE-Bench Pro (реальные задачи по исправлению кода в открытых репозиториях) GLM 5.1 набрал 58.4 — выше, чем у GPT-5.4 и Claude Opus 4.6. На AIME 2026 — 95.3 балла. На GPQA-Diamond (вопросы уровня аспирантуры по естественным наукам) — 86.2.

Ключевые параметры модели

GLM 5.1 — это 754-миллиардная модель с архитектурой Mixture of Experts (смесь экспертов). Zhipu называет её «агентной»: она способна вести автономную работу на протяжении 8 часов, выполняя тысячи вызовов инструментов без потери фокуса на задаче.

Параметр	GLM 5.1	Claude Opus 4.6	GPT-5.4
Тип	Open-source (MIT)	Проприетарная	Проприетарная
Параметры	754B (MoE)	Не раскрыто	Не раскрыто
Цена (вход/выход, $1M токенов)	$1.40 / $4.40	$5.00 / $25.00	~$5.00 / ~$20.00
SWE-Bench Pro	58.4 (SOTA)	55.0	~52.0
Автономная работа	до 8 часов	—	—
Prompt caching	Да	Да	Да


graph LR
    A[GLM 5.1\n$0.40/прогон] -->|«3x дешевле»| B[Claude Opus 4.6\n$1.20/прогон]
    A -->|«обходит»| C[GPT-5.4]
    A -->|«обходит»| D[Gemini 3.1 Pro]
    A -->|«обходит»| E[Qwen 3.6]
    B -->|«лучший»| F[Топ агентного\nбенчмарка]
    A -->|«второй»| F

Что это значит для рынка

Это уже второй удар по ценовому позиционированию Anthropic и OpenAI за последние месяцы. Сначала DeepSeek обрушил стоимость рассуждений. Теперь GLM 5.1 делает то же самое с агентными задачами.

💡 Для разработчиков агентов

Если вы строите агентный пайплайн и Opus слишком дорог — GLM 5.1 стоит проверить первым. Модель доступна через API на api.z.ai и bigmodel.cn, веса выложены на Hugging Face под MIT-лицензией.

Отдельно стоит отметить Qwen 3.6 — ещё одну модель, которая хорошо выступила в тестах OpenClaw. Её минус: отсутствие prompt caching (кэширования промптов), что существенно увеличивает стоимость при длинных системных инструкциях — типичных для агентных сценариев.

⚠ Осторожно с выводами

Результаты основаны на тестировании одного разработчика через одну платформу (OpenClaw). Независимых воспроизведений пока немного. Прежде чем мигрировать инфраструктуру — проверьте на своих задачах.

Тем не менее независимые бенчмарки (SWE-Bench Pro, AIME 2026, GPQA-Diamond) согласуются с выводами: GLM 5.1 — это полноценный претендент на звание лучшей агентной модели с открытыми весами прямо сейчас.

Что показали тесты

Ключевые параметры модели

Что это значит для рынка

Источники

Похожие статьи

DeepSeek V4 Pro догнал GPT-5.2 за 10 недель и в 17 раз дешевле

LoRA для анализа данных: 9B-модель справляется с 89% задач без человека

87% на бенчмарке с моделью 4B: как это работает

Reasoning-модели в 2026: чем o3, Gemini и Claude Opus отличаются

Compound Engineering: плагин для Claude Code и Cursor с 37 скиллами