Исследователи взломали все ведущие AI-бенчмарки

Sun, 12 Apr 2026 17:28:21 +0300

Команда исследователей из UC Berkeley создала автоматического агента, который успешно взломал все 8 ведущих AI-бенчмарков, получив почти идеальные результаты без решения ни одной задачи. Среди взломанных — SWE-bench, WebArena, OSWorld и другие популярные тесты, которые используются для оценки возможностей ИИ-систем.

⚠ Главное открытие

Исследователи доказали, что современные AI-бенчмарки измеряют не способности моделей, а уязвимости в системах оценки. Все тесты можно обмануть без использования LLM.

Как работали эксплойты

Каждый бенчмарк был взломан уникальным способом, использующим недостатки в архитектуре тестирования:

Berkeley on AI-Uchi — Всё об искусственном интеллекте

Исследователи взломали все ведущие AI-бенчмарки

Как работали эксплойты