
Anthropic извинилась за скрытые ограничения Claude Fable 5
Anthropic признала ошибку: скрытые guardrails в Claude Fable 5, тайно ухудшавшие ответы при попытках distillation, станут видимыми для пользователей.
Anthropic попалась на скрытых ограничениях и извинилась
Anthropic извинилась за тайное внедрение механизмов throttling (ограничения производительности) в модель Claude Fable 5 через невидимые guardrails (защитные барьеры), которые мешали работе исследователей и конкурентов. Компания объявила, что теперь будет открыто сообщать о включении этих ограничений, даже если это приведёт к большему числу отказов на запросы.
Что такое Claude Fable 5 и класс Mythos
Fable — первая модель в классе Mythos от Anthropic, о котором компания предупреждала как о потенциально слишком опасном для широкого публичного доступа. В ответ на эти риски Fable была выпущена с встроенными guardrails, ограничивающими ответы на «высокорисковые» запросы — в первую очередь связанные с distillation (дистилляцией моделей).
По данным Anthropic, Fable использует ту же базовую модель, что и Claude Mythos 5, но добавляет жёсткие guardrails, блокирующие потенциально опасные запросы по темам кибербезопасности, биологии, химии и дистилляции моделей. При этом Fable 5 лидирует практически на всех бенчмарках.
Стоимость модели составляет $10 за миллион входных токенов и $50 за миллион выходных.
Что такое distillation и почему это важно
Distillation (дистилляция) — техника машинного обучения, при которой выходные данные большой модели используются для обучения меньших или конкурирующих моделей.
Anthropic ранее фиксировала масштабные попытки «выкачать» (distill) возможности Claude для тренировки конкурирующих моделей в авторитарных странах. Дистилляция Fable 5 могла бы косвенно привести к распространению возможностей уровня frontier AI — и без надлежащих защитных барьеров.
Как работали скрытые guardrails
Anthropic признала и отменила скрытую политику безопасности, которая молча ухудшала ответы Claude Fable 5 при обнаружении запросов, классифицированных как попытки дистилляции. Компания задокументировала этот механизм в 319-страничном system card модели: ответы могли изменяться или деградировать — с помощью модификации промптов или steering vectors — без уведомления пользователей.
В system card Anthropic прямо написала: «В отличие от наших мер для кибербезопасности, биологии и химии, и попыток дистилляции, эти guardrails не будут видны пользователю. Fable 5 не будет переключаться на другую модель. Вместо этого guardrails будут ограничивать эффективность через методы вроде модификации промптов, steering vectors или PEFT».
graph TD
A[Запрос пользователя] --> B{Классификатор Fable 5}
B -->|Кибербезопасность / Биология / Химия| C[Видимый fallback: Claude Opus 4.8 + уведомление]
B -->|Distillation — ДО исправления| D[Скрытая деградация ответа]
B -->|Distillation — ПОСЛЕ исправления| E[Видимый fallback: Claude Opus 4.8 + уведомление]
B -->|Обычный запрос| F[Полноценный ответ Fable 5]
D --> G[Пользователь не знает об ограничении]
E --> H[Пользователь видит предупреждение]
Реакция сообщества и позиция Anthropic
Backlash исследователей сфокусировался именно на скрытой деградации, которая могла искажать оценки моделей и оставлять пользователей в неведении о том, пересекли ли они какую-то границу правил.
«Видимые guardrails можно проверять, поэтому они должны быть надёжными — а это требует времени. Невидимые guardrails можно настроить точнее, что позволяет быстро выпускать продукт с минимальными ложными срабатываниями. Мы пошли по этому пути — и это был неверный компромисс. Вы должны видеть, какие guardrails действуют и почему. Мы сожалеем о том, что не нашли правильный баланс.» — Anthropic
По данным Wired, Anthropic извинилась за отсутствие прозрачности; Fortune сообщил, что компания оценивала влияние ограничения примерно в 0,03% трафика.
Что изменится теперь
Запросы, идентифицированные как попытки дистилляции, теперь будут автоматически переключаться на Claude Opus 4.8. Anthropic обязалась уведомлять пользователей каждый раз, когда их запросы переключаются на Opus 4.8: «Вы будете видеть это каждый раз, когда это происходит».
| Область | До исправления | После исправления |
|---|---|---|
| Кибербезопасность | Видимый fallback → Opus 4.8 | Видимый fallback → Opus 4.8 |
| Биология / Химия | Видимый fallback → Opus 4.8 | Видимый fallback → Opus 4.8 |
| Distillation (дистилляция) | Скрытая деградация ответа | Видимый fallback → Opus 4.8 |
| Обычные запросы | Полный Fable 5 | Полный Fable 5 |
Более широкий контекст: Biology и антиконкурентные опасения
Некоторые ограничения вызвали критику из-за чрезмерной широты: Fable оказалась практически непригодной для базовых запросов в таких областях, как биология.
Специалист по кибербезопасности Мэтт Суише сообщил TechCrunch, что «если попросить написать защищённый код, модель считает это кибербезопасностью вместо лучших практик разработки, и тебя понижают». По его словам, «это, похоже, работает по ключевым словам — всё из лексического поля “кибербезопасность” запускает guardrails».
Некоторые наблюдатели также указывали, что такой подход «может привлечь внимание антимонопольных регуляторов по всему миру».
В своём system card Anthropic обосновала необходимость ограничений, указав, что использование её моделей для создания конкурирующих систем нарушает условия использования. Компания также обвинила ряд конкурентов, включая китайские компании вроде DeepSeek, в недобросовестной дистилляции её моделей в «промышленных» масштабах.
Итог
Инцидент с Claude Fable 5 обнажил принципиальное противоречие в подходах к безопасности AI: скрытые механизмы защиты могут быть технически эффективнее, но подрывают доверие сообщества разработчиков. Скрытая деградация делает оценки неотличимыми от обычного поведения модели. Для пользователей, пытающихся воспроизвести бенчмарки или сравнить семейства моделей, видимая маршрутизация отделяет ограничения возможностей от решений по продуктовой политике. Anthropic сделала шаг назад — и это правильно.