
GLM 5.2 обходит Claude в бенчмарке по безопасности
Команда Semgrep протестировала GLM 5.2 на поиске IDOR-уязвимостей — открытая модель от Zhipu AI обошла Claude Code при цене $0.17 за найденную уязвимость.
Открытая модель от Zhipu AI превзошла Claude в поиске уязвимостей
Команда Semgrep запустила серию тестов на обнаружение IDOR-уязвимостей (Insecure Direct Object Reference — небезопасные прямые ссылки на объекты) и получила неожиданный результат. Запустив набор open-source моделей на своём IDOR-бенчмарке — том же датасете и с тем же промптом, что используется для оценки фронтирных coding-агентов, — исследователи обнаружили: GLM 5.2 от Zhipu AI набрал 39% по метрике F1 на задаче обнаружения IDOR, обойдя Claude Code (32%) при цене примерно $0.17 за найденную уязвимость.
Что такое GLM 5.2
Zhipu AI (известная также как Z.ai) выпустила open-weight модель GLM-5.2 13 июня 2026 года, ориентировав её на задачи разработки. GLM-5.2 стала первой китайской AI-моделью, вошедшей в мировой топ-3 по крупному бенчмарку. Бывший вице-президент Meta и Google DeepMind Мэтт Веллозо назвал её «первой открытой моделью, которая проходит планку для ежедневного использования».
Архитектурно GLM-5.2 использует около 750 миллиардов параметров в разреженном MoE-дизайне, причём только около 40 миллиардов активируются на каждый токен — это сдерживает стоимость инференса. Контекстное окно в 1 миллион токенов примерно в 5 раз превышает лимит GLM 5.1 (~200K).
Модель распространяется под лицензией MIT. Для многих команд безопасности, работающих с чувствительными данными, это принципиально важно: open-weight модель может полностью работать в собственной инфраструктуре.
Детали эксперимента Semgrep
Исследователи хотели ответить на один вопрос: сколько из производительности при обнаружении уязвимостей зависит от самой модели, а сколько — от инструментального обвязки (harness) вокруг неё?
В тесте участвовали три группы:
- Semgrep Multimodal — собственный конвейер с harness, который автоматически перечисляет эндпоинты и направляет модель к нужному контексту.
- Claude Code — запускался через нативный SDK.
- Open-weight модели (GLM 5.2, MiniMax M3, Kimi K2.7 Code) — работали в простом Pydantic AI harness с тем же IDOR-промптом.
Результаты сравнения
| Модель / Конфигурация | F1-score | Стоимость за уязвимость | Harness |
|---|---|---|---|
| Semgrep Multimodal Pipeline | 53–61% | — | Специализированный |
| GLM 5.2 (Zhipu AI) | 39% | ~$0.17 | Простой (Pydantic AI) |
| Claude Code (Opus 4.6) | 37% | Выше | Нативный SDK |
| Claude Code (Opus 4.8/4.7) | 28% | Выше | Нативный SDK |
Среди моделей, работавших только с промптом, лучший open-weight вариант больше не был очевидным аутсайдером — он обошёл Claude Opus 4.8.
graph TD
A[IDOR Бенчмарк Semgrep] --> B[Semgrep Multimodal Pipeline]
A --> C[Frontier модели - Claude Code]
A --> D[Open-weight модели]
B --> B1[53-61% F1\nСпециализированный harness]
C --> C1[28-37% F1\nНативный SDK]
D --> D1[GLM 5.2: 39% F1\n~$0.17 за уязвимость]
D --> D2[MiniMax M3, Kimi K2.7]
style D1 fill:#4CAF50,color:#fff
style B1 fill:#2196F3,color:#fff
Преимущества по цене
Токеномика быстро становится не менее важной, чем возможности самой модели. Заявленная стоимость GLM 5.2 составляет около одной шестой от сопоставимых фронтирных моделей — комментаторы, следящие за открытыми моделями, уже сравнивают появление GLM 5.2 с выходом DeepSeek.
API-цены GLM-5.2 находятся в диапазоне около $0.95–$2 за миллион входных токенов, тогда как ведущие закрытые модели от Anthropic и OpenAI берут от $5 до $15 за миллион входных токенов.
Показатели на стандартных бенчмарках
На стандартных бенчмарках по коду модель показывает лучшие результаты среди open-weight: 81.0 на Terminal-Bench 2.1 (против 63.5 у GLM 5.1 и в нескольких пунктах от Claude Opus 4.8 с его 85.0) и 62.1 на SWE-bench Pro.
Graphistry провела отдельную оценку на бенчмарке CyBT-CTF и обнаружила, что GLM 5.2 показывает такой же процент решённых задач, как Anthropic Opus 4.8, — что делает её первой open-weight моделью, которую Graphistry назвала пригодной для «фронтирного опыта» в кибербезопасности.
Контекст и значение для отрасли
GLM-5.2 вышла 13 июня 2026 года — на следующий день после того, как правительство США заблокировало доступ к моделям Anthropic Fable 5 и Claude Mythos для иностранных пользователей, сославшись на опасения по поводу их продвинутых возможностей в кибербезопасности.
Graphistry отметила: выход GLM 5.2 стал первым случаем, когда они начали чувствовать себя комфортно, рекомендуя open-weight модель для опыта «уровня фронтира» в кибербезопасности.
Год назад поставить open-weight модель в таблицу лидеров по обнаружению уязвимостей было бы благотворительным жестом. Теперь — это конкурентное заявление.
Вместе с тем Semgrep подчёркивает ограничения своего эксперимента: это один тест, один датасет, один прогон. Обнаружение IDOR недетерминировано, а датасет конечен. Инженерные вложения в хорошо спроектированный harness по-прежнему дают наибольший прирост производительности обнаружения.