Anthropic попалась на скрытых ограничениях и извинилась

Anthropic извинилась за тайное внедрение механизмов throttling (ограничения производительности) в модель Claude Fable 5 через невидимые guardrails (защитные барьеры), которые мешали работе исследователей и конкурентов. Компания объявила, что теперь будет открыто сообщать о включении этих ограничений, даже если это приведёт к большему числу отказов на запросы.

⚠ Суть скандала
Пользователи получали намеренно ухудшенные ответы от Claude Fable 5 — и не знали об этом. Никаких предупреждений, никаких уведомлений.

Что такое Claude Fable 5 и класс Mythos

Fable — первая модель в классе Mythos от Anthropic, о котором компания предупреждала как о потенциально слишком опасном для широкого публичного доступа. В ответ на эти риски Fable была выпущена с встроенными guardrails, ограничивающими ответы на «высокорисковые» запросы — в первую очередь связанные с distillation (дистилляцией моделей).

По данным Anthropic, Fable использует ту же базовую модель, что и Claude Mythos 5, но добавляет жёсткие guardrails, блокирующие потенциально опасные запросы по темам кибербезопасности, биологии, химии и дистилляции моделей. При этом Fable 5 лидирует практически на всех бенчмарках.

Стоимость модели составляет $10 за миллион входных токенов и $50 за миллион выходных.

Что такое distillation и почему это важно

Distillation (дистилляция) — техника машинного обучения, при которой выходные данные большой модели используются для обучения меньших или конкурирующих моделей.

Anthropic ранее фиксировала масштабные попытки «выкачать» (distill) возможности Claude для тренировки конкурирующих моделей в авторитарных странах. Дистилляция Fable 5 могла бы косвенно привести к распространению возможностей уровня frontier AI — и без надлежащих защитных барьеров.

ℹ Как работала скрытая защита
Вместо явного отказа модель тайно деградировала собственные ответы — через модификацию промптов, steering vectors или PEFT (parameter-efficient fine-tuning). Пользователь не получал никаких уведомлений.

Как работали скрытые guardrails

Anthropic признала и отменила скрытую политику безопасности, которая молча ухудшала ответы Claude Fable 5 при обнаружении запросов, классифицированных как попытки дистилляции. Компания задокументировала этот механизм в 319-страничном system card модели: ответы могли изменяться или деградировать — с помощью модификации промптов или steering vectors — без уведомления пользователей.

В system card Anthropic прямо написала: «В отличие от наших мер для кибербезопасности, биологии и химии, и попыток дистилляции, эти guardrails не будут видны пользователю. Fable 5 не будет переключаться на другую модель. Вместо этого guardrails будут ограничивать эффективность через методы вроде модификации промптов, steering vectors или PEFT».


graph TD
    A[Запрос пользователя] --> B{Классификатор Fable 5}
    B -->|Кибербезопасность / Биология / Химия| C[Видимый fallback: Claude Opus 4.8 + уведомление]
    B -->|Distillation — ДО исправления| D[Скрытая деградация ответа]
    B -->|Distillation — ПОСЛЕ исправления| E[Видимый fallback: Claude Opus 4.8 + уведомление]
    B -->|Обычный запрос| F[Полноценный ответ Fable 5]
    D --> G[Пользователь не знает об ограничении]
    E --> H[Пользователь видит предупреждение]

Реакция сообщества и позиция Anthropic

Backlash исследователей сфокусировался именно на скрытой деградации, которая могла искажать оценки моделей и оставлять пользователей в неведении о том, пересекли ли они какую-то границу правил.

«Видимые guardrails можно проверять, поэтому они должны быть надёжными — а это требует времени. Невидимые guardrails можно настроить точнее, что позволяет быстро выпускать продукт с минимальными ложными срабатываниями. Мы пошли по этому пути — и это был неверный компромисс. Вы должны видеть, какие guardrails действуют и почему. Мы сожалеем о том, что не нашли правильный баланс.» — Anthropic

По данным Wired, Anthropic извинилась за отсутствие прозрачности; Fortune сообщил, что компания оценивала влияние ограничения примерно в 0,03% трафика.

Что изменится теперь

Запросы, идентифицированные как попытки дистилляции, теперь будут автоматически переключаться на Claude Opus 4.8. Anthropic обязалась уведомлять пользователей каждый раз, когда их запросы переключаются на Opus 4.8: «Вы будете видеть это каждый раз, когда это происходит».

ОбластьДо исправленияПосле исправления
КибербезопасностьВидимый fallback → Opus 4.8Видимый fallback → Opus 4.8
Биология / ХимияВидимый fallback → Opus 4.8Видимый fallback → Opus 4.8
Distillation (дистилляция)Скрытая деградация ответаВидимый fallback → Opus 4.8
Обычные запросыПолный Fable 5Полный Fable 5

Более широкий контекст: Biology и антиконкурентные опасения

Некоторые ограничения вызвали критику из-за чрезмерной широты: Fable оказалась практически непригодной для базовых запросов в таких областях, как биология.

Специалист по кибербезопасности Мэтт Суише сообщил TechCrunch, что «если попросить написать защищённый код, модель считает это кибербезопасностью вместо лучших практик разработки, и тебя понижают». По его словам, «это, похоже, работает по ключевым словам — всё из лексического поля “кибербезопасность” запускает guardrails».

Некоторые наблюдатели также указывали, что такой подход «может привлечь внимание антимонопольных регуляторов по всему миру».

В своём system card Anthropic обосновала необходимость ограничений, указав, что использование её моделей для создания конкурирующих систем нарушает условия использования. Компания также обвинила ряд конкурентов, включая китайские компании вроде DeepSeek, в недобросовестной дистилляции её моделей в «промышленных» масштабах.

💡 Что это значит для разработчиков
Если вы используете Claude Fable 5 для исследований или ML-работ — теперь вы будете явно видеть, когда запрос переключается на Opus 4.8. Это важно для воспроизводимости экспериментов и честного сравнения моделей.

Итог

Инцидент с Claude Fable 5 обнажил принципиальное противоречие в подходах к безопасности AI: скрытые механизмы защиты могут быть технически эффективнее, но подрывают доверие сообщества разработчиков. Скрытая деградация делает оценки неотличимыми от обычного поведения модели. Для пользователей, пытающихся воспроизвести бенчмарки или сравнить семейства моделей, видимая маршрутизация отделяет ограничения возможностей от решений по продуктовой политике. Anthropic сделала шаг назад — и это правильно.