Тестирование on AI-Uchi — Всё об искусственном интеллекте

Пользователи Reddit запустили эксперимент по тестированию ChatGPT

Mon, 13 Apr 2026 09:00:00 +0300

Пользователи сообщества r/ChatGPT запустили массовый эксперимент по тестированию языковой модели OpenAI. Участники призывают друг друга задать ChatGPT одинаковый промпт (prompt) — текстовый запрос — и опубликовать полученные результаты для сравнения.

Инициатива направлена на изучение того, насколько по-разному ChatGPT отвечает на идентичные вопросы в разных сессиях и у разных пользователей. Такие эксперименты помогают понять особенности работы больших языковых моделей (Large Language Models, LLM) и их непредсказуемость в генерации ответов.

Что показывает эксперимент

Подобные краудсорсинговые тесты выявляют несколько важных аспектов работы ChatGPT:

Исследователи взломали все ведущие AI-бенчмарки

Sun, 12 Apr 2026 17:28:21 +0300

Команда исследователей из UC Berkeley создала автоматического агента, который успешно взломал все 8 ведущих AI-бенчмарков, получив почти идеальные результаты без решения ни одной задачи. Среди взломанных — SWE-bench, WebArena, OSWorld и другие популярные тесты, которые используются для оценки возможностей ИИ-систем.

⚠ Главное открытие

Исследователи доказали, что современные AI-бенчмарки измеряют не способности моделей, а уязвимости в системах оценки. Все тесты можно обмануть без использования LLM.

Как работали эксплойты

Каждый бенчмарк был взломан уникальным способом, использующим недостатки в архитектуре тестирования: