GLM-5.2: самая мощная текстовая open-weights LLM прямо сейчас

Китайская лаборатория Z.ai (бывшая Zhipu AI, спин-офф Университета Цинхуа) тихо совершила то, что ещё недавно казалось невозможным: выпустила открытую языковую модель, которая бьёт GPT-5.5 на ключевых бенчмарках и при этом стоит в шесть раз дешевле. Знакомьтесь — GLM-5.2.


Как проходил релиз

Китайская ИИ-лаборатория Z.ai выпустила GLM-5.2 для подписчиков своего Coding Plan 13 июня, а уже 16 июня открыла полные веса модели под лицензией MIT. Схема «сначала платным пользователям — потом всем» стала фирменным стилем компании: так же выходили GLM-5 и GLM-5.1.

Модель сразу стала доступна на Hugging Face, через API Z.ai, а также более чем в 20 сторонних средах разработки.

ℹ Что такое open weights?
Open weights (открытые веса) означает, что веса обученной нейросети публично доступны для скачивания, донастройки и развёртывания. Это не то же самое, что полный open source: код обучения и технический отчёт могут не раскрываться. Поэтому термин «open weights» точнее, чем «open source» в строгом смысле.

Технические характеристики

По размеру GLM-5.2 схожа с предыдущими GLM-5 и GLM-5.1: это монстр на 753 миллиарда параметров весом 1,51 ТБ, использующий архитектуру Mixture of Experts (MoE) с 40 активными миллиардами параметров на один токен.

GLM-5.2 — модель только для текстового ввода. У Z.ai есть отдельное мультимодальное семейство, последним представителем которого является GLM-5V-Turbo, однако его веса не открыты.

Контекстное окно GLM-5.2 составляет 1 миллион токенов — в пять раз больше, чем у GLM-5.1 с его 200 000 токенами.

Ключевые архитектурные улучшения

Z.ai применила в GLM-5.2 технологию IndexShare — метод разреженного внимания (sparse attention), который переиспользует один и тот же индексатор каждые 4 слоя, сокращая количество вычислительных операций на токен в 2,9 раза при контексте в 1 млн токенов.

Компания также обновила слой MTP (Multi-Token Prediction) для спекулятивного декодирования, увеличив длину принятия токенов до 20%.

Архитектура MoE с ~40 миллиардами активных параметров позволяет сохранить управляемую стоимость инференса: при запросе задействуется не весь массив из 753 миллиардов параметров, а лишь его часть.


graph TD
    A[GLM-5.2\n753B параметров] --> B[MoE архитектура\n40B активных/токен]
    A --> C[Контекст 1M токенов\nIndexShare]
    A --> D[Два режима мышления\nHigh и Max]
    B --> E[Экономичный инференс]
    C --> F[Работа с большими\nкодовыми базами]
    D --> G[Баланс\nскорость vs качество]


Лицензия и доступность

Z.ai выпустила веса GLM-5.2 под неограниченной лицензией MIT с открытым исходным кодом, что позволяет предприятиям бесплатно скачать модель с Hugging Face, настроить или дообучить её по своему усмотрению, а также запускать локально или через виртуальные машины — платя лишь за вычислительные ресурсы и электроэнергию.

Модель доступна через GLM Coding Plan (тарифы Lite / Pro / Max / Team) и через токенный API Z.ai. Открытые веса опубликованы в репозитории zai-org/GLM-5.2 на Hugging Face.

💡 Как подключить GLM-5.2 к своему инструменту

Разработчики могут подключить вариант с 1M-токенным контекстом, используя идентификатор модели glm-5.2[1m], настроить режимы Claude Code на уровни рассуждения High или Max в GLM-5.2, и воспользоваться OpenAI-совместимым API-эндпоинтом Z.ai для интеграций.

Model ID для стандартного варианта: glm-5.2 Model ID для 1M-контекста: glm-5.2[1m]

API-эндпоинт Z.ai совместим со стандартом OpenAI, что упрощает миграцию:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_ZAI_API_KEY",
    base_url="https://open.bigmodel.cn/api/paas/v4/"
)

response = client.chat.completions.create(
    model="glm-5.2",  # или "glm-5.2[1m]" для 1M-контекста
    messages=[
        {"role": "user", "content": "Напиши функцию сортировки на Python"}
    ]
)
print(response.choices[0].message.content)

Результаты бенчмарков

GLM-5.2 — первая open-weights модель, которая реально конкурирует с GPT-5.5 и Claude Opus 4.8 на задачах программирования — и при этом доступна бесплатно.

GLM-5.2 набрала 51 балл на Artificial Analysis Intelligence Index v4.1, став лучшей open-weights моделью в этом рейтинге и опередив MiniMax-M3 (44) и DeepSeek V4 Pro (44).

Сравнение с конкурентами

БенчмаркGLM-5.2GPT-5.5Claude Opus 4.8
SWE-bench Pro62.158.669.2
FrontierSWE (Dominance)74.4%72.6%75.1%
Terminal-Bench 2.181.084.085.0
MCP-Atlas (инструменты)77.075.377.8
AIME 2026 (математика)99.2
PostTrainBench34.3%25.0%
GDPval-AA v2 (агентные задачи)15241514

На трёх ключевых бенчмарках долгосрочного кодирования — FrontierSWE, PostTrainBench и SWE-Marathon — GLM-5.2 является лучшей open-source моделью и единственной с открытыми весами, которая вплотную приближается к Claude Opus 4.8 и GPT-5.5 в этом классе задач.

На Terminal-Bench 2.1 GLM-5.2 набрала 81.0, став первой open-weights моделью, преодолевшей отметку 80% на этом тесте.

За пределами традиционных метрик кодирования GLM-5.2 заняла первое место на краудсорсинговом бенчмарке дизайн-задач Design Arena, обойдя даже Claude Fable 5 с ELO-рейтингом 1360.


Стоимость: главный козырь

Через собственный API цена GLM-5.2 соответствует GLM-5.1 и составляет $1,4 / $4,4 / $0,26 за миллион токенов на входе / выходе / кэш-хит.

Через OpenRouter модель обходится в $1,40 за миллион входных токенов — примерно на 72% дешевле, чем Claude и GPT.

⚠ Важно для корпоративных пользователей
Если вы используете hosted API Z.ai, а не самостоятельно развёртываете веса, ваши запросы проходят через серверы, на которые распространяется Закон КНР о национальной разведке. Для чувствительных к конфиденциальности задач рекомендуется self-hosting на собственной инфраструктуре.

Тарифы GLM Coding Plan

ТарифЦена/месВозможности
Lite~$12,60Базовый доступ к GLM-5.2
Pro~$50,40Расширенные лимиты
Max~$112Максимальные лимиты
TeamПо запросуКомандные квоты

Режимы рассуждения

GLM-5.2 поставляется с двумя уровнями рассуждения — «thinking» и «max thinking» — и той же MIT-лицензией, благодаря которой более ранние чекпоинты GLM стали популярными для self-hosted развёртываний.

  • High — сбалансированный режим: хорошее качество при приемлемой скорости и стоимости
  • Max — максимальная производительность: модель «думает» дольше, но даёт лучшие результаты на сложных задачах

GLM-5.2 генерирует в среднем 43 000 выходных токенов на задачу бенчмарка Intelligence Index, из которых 37 000 приходится на рассуждение. Это стоит учитывать при планировании бюджета.


Экосистема и интеграции

На момент запуска GLM-5.2 поддерживала drop-in интеграции через OpenAI-совместимый эндпоинт: Claude Code, Cline, OpenCode, Roo Code, Goose, Crush, OpenClaw, Kilo Code.

Z.ai заявляет, что GLM-5.2 обучалась для сценариев долгосрочных агентов кодирования, включая крупномасштабную реализацию, автоматизированные исследования, оптимизацию производительности и сложную отладку.


Место в ландшафте open-source ИИ

Выпуск мощных весов под разрешительными лицензиями стал определяющим шагом китайских open-model лабораторий, и это меняет разговор о стоимости для всего рынка: закрытый фронтир вынужден оправдывать свою премию перед бесплатной, самостоятельно развёртываемой альтернативой.

Z.ai, ранее известная как ZhipuAI, была основана в 2019 году на базе технологий Университета Цинхуа и с тех пор выпустила GLM, GLM-130B, ChatGLM, GLM-4, GLM-4-Voice, AutoGLM и другие агентные продукты и модели.

📝 Кому стоит попробовать GLM-5.2 прямо сейчас
  • Командам разработчиков, которым нужен агент для работы с большими кодовыми базами (1M токенов = примерно 750 000 строк кода в контексте)
  • Компаниям, ищущим замену дорогим закрытым API — особенно тем, кто уже использует Claude Code или Cline
  • Исследователям, которые хотят дообучить frontier-класс модель на собственных данных
  • Всем, кому важна возможность полностью автономного self-hosted развёртывания без зависимости от вендора

Итог

Сочетание оценок кодирования frontier-класса и неограниченной открытой лицензии сделало этот релиз самой обсуждаемой историей в мире ИИ за месяц. GLM-5.2 — убедительное доказательство того, что граница между открытыми и закрытыми моделями стремительно стирается, причём инициатива исходит из Китая.

Для российских разработчиков и компаний это означает конкретную практическую возможность: развернуть модель уровня GPT-5.5 на собственной инфраструктуре, без подписки на западные сервисы и без лицензионных ограничений.