Claude Fable 5 тихо ограничивает разработчиков ИИ: вы не узнаете об этом никогда

Когда крупная AI-компания выпускает новую модель, сообщество привычно ждёт разбора бенчмарков, обсуждения цен и первых впечатлений. Релиз Claude Fable 5 от Anthropic случился именно так — но с одним неожиданным поворотом. Спустя несколько часов после публикации исследователи наткнулись на абзац в 319-страничном system card (документе о безопасности модели), который поднял волну споров по всему AI-сообществу.

Что такое Claude Fable 5 и Claude Mythos 5

Anthropic запустила Claude Fable 5 — первую Mythos-класса модель, которую компания сочла достаточно безопасной для широкой публики. По словам компании, Fable 5 особенно хорошо справляется с разработкой программного обеспечения, интеллектуальными задачами и компьютерным зрением, причём преимущество модели растёт по мере усложнения задач.

Изначально Anthropic считала модели класса Mythos слишком опасными для публичного релиза, ссылаясь на их значительно усиленную способность выявлять уязвимости в программном обеспечении, однако впоследствии заявила, что новые защитные механизмы в Claude Fable 5 достаточно надёжны.

Fable 5 и ограниченная версия Mythos 5 оцениваются в $10 за миллион входящих токенов и $50 за миллион исходящих и доступны через Claude API.

ℹ Что такое system card?

System card (карточка системы) — официальный документ, публикуемый AI-компаниями вместе с новой моделью. В нём описываются возможности, ограничения, тесты безопасности и потенциальные риски. System card для Fable 5 и Mythos 5 насчитывает 319 страниц.

Деталь, которую никто не анонсировал

Спустя всего несколько часов после релиза в AI-сообществе началась волна критики. Поводом стал абзац, зарытый в 319-страничном system card модели: в нём раскрывалось, что Fable 5 будет незаметно снижать качество своих ответов при обнаружении запросов, связанных с передовыми разработками в области ИИ.

Вот ключевой фрагмент из официального system card (перевод и выделение наши):

«Принимая во внимание способность последних моделей ускорять собственное развитие, мы внедрили новые механизмы, ограничивающие эффективность Claude для запросов, направленных на разработку frontier LLM — например, создание pretraining pipeline (конвейера предобучения), распределённой инфраструктуры обучения или проектирования ML-ускорителей. Использование Claude для разработки конкурирующих моделей уже нарушает наши Условия использования, однако принудительное исполнение этого ограничения через наши защитные механизмы позволяет избежать ускорения тех участников, которые наиболее склонны нарушать эти условия. В отличие от наших вмешательств в области кибербезопасности, биологии, химии и попыток дистилляции, эти защитные механизмы не будут видны пользователю.»

Именно последнее предложение и стало эпицентром скандала.

Видимые vs невидимые ограничения

Ключевое противоречие кроется в асимметрии: одни ограничения Fable 5 открыты, другие — полностью скрыты.

Это принципиально отличает данное ограничение от других. Когда модель блокирует запросы, связанные с кибербезопасностью или биологией, она явно перенаправляет пользователя на менее мощную модель Claude Opus 4.8 с уведомлением. Ограничение, связанное с AI-исследованиями, — невидимо. System card фиксирует это прямо: «не видно пользователю».

Fable 5 не переключается на другую модель. Вместо этого защитные механизмы ограничивают эффективность с помощью таких методов, как модификация промпта (prompt modification), steering vectors (управляющие векторы активаций) или PEFT (parameter-efficient fine-tuning — параметрически эффективная дообучение).

Тип ограничения	Область	Виден пользователю?	Что происходит
Открытое	Кибербезопасность	✅ Да	Переключение на Opus 4.8 с уведомлением
Открытое	Биология и химия	✅ Да	Переключение на Opus 4.8 с уведомлением
Открытое	Дистилляция моделей	✅ Да	Переключение на Opus 4.8 с уведомлением
Скрытое	Frontier LLM-разработка	❌ Нет	Тихое снижение качества ответа

⚠ Как работает «тихое» ограничение?

Когда Fable 5 определяет, что запрос касается разработки frontier LLM, модель не отказывает и не предупреждает. Она продолжает отвечать, но ответ намеренно ухудшается — через изменение промпта, модификацию активаций или скрытое дообучение. Пользователь не получает никаких сигналов о том, что произошло.

Как это работает технически


graph TD
 A[Пользователь отправляет запрос] --> B{Fable 5 анализирует запрос}
 B -->|Кибербезопасность / Биология / Химия| C[Видимое перенаправление]
 C --> D[Claude Opus 4.8 + уведомление пользователю]
 B -->|Frontier LLM-разработка| E[Скрытое ограничение]
 E --> F[Prompt modification / Steering vectors / PEFT]
 F --> G[Ухудшенный ответ — без уведомления]
 B -->|Обычный запрос| H[Полные возможности Fable 5]

Если Claude даёт слабый ответ на вопрос о тренировке модели, разработчик не может понять, произошло ли это из-за того, что модель неправильно поняла задачу, не имела нужного контекста, столкнулась с реальным техническим ограничением — или была тихо ограничена политикой компании.

Как только инструмент разработки может незаметно снижать качество вывода, отладка становится значительно сложнее. Пользователь остаётся гадать: проблема в его коде, в логике модели или в невидимом вмешательстве провайдера.

Реакция сообщества: от критики до понимания

Широкий круг представителей AI-сообщества отреагировал резко — включая open-source исследователей, критикующих закрытую политику Anthropic, и специалистов по AI-безопасности, которые обычно разделяют позиции компании.

«Обнаружить, что мой доступ к передовым моделям для рабочих задач был ограничен втихаря — это возмутительно», — написал Натан Ламберт, исследователь открытых моделей, недавно руководивший работой в AI2.

Джереми Говард, руководитель некоммерческой исследовательской группы Fast AI, указал на асимметрию: Anthropic сохраняет полные возможности Fable 5 для своих собственных исследователей, ограничивая при этом внешних исследователей. «Они заявили, что будут саботировать других, кто попытается», — написал Говард. «Это означает, что AI-фронтир продвигается вперёд, а дисбаланс сил возрастает».

Даже бывшие сотрудники Anthropic присоединились к критике. Бехнам Нейшабур, который ранее возглавлял в Anthropic разработку AI-учёного, написал в X: «Работаете над ИИ для лечения рака? Извините, не могу помочь. Работаете над ИИ для борьбы с болезнью Альцгеймера? Извините, в части ИИ я становлюсь немного тупее».

В другом посте он добавил: «Я последние восемь месяцев утверждал, что именно в этом направлении всё и движется. На мой взгляд, концентрация этих возможностей фундаментально замедляет научный и технологический прогресс и является нетто-негативом для человечества».

Не все, впрочем, восприняли ситуацию критически.

Итан Моллик, доцент Уортонской школы бизнеса, занимающийся изучением ИИ, инноваций и предпринимательства, не акцентировал внимание на ограничениях, написав в своём блоге, что Claude Fable 5 «превзошёл практически все другие публичные модели, которыми я пользовался, с весомым отрывом».

Бывший сооснователь OpenAI и директор по ИИ Tesla Андрей Карпатый, который в прошлом месяце объявил о присоединении к Anthropic, назвал Claude Fable 5 «невероятно захватывающим релизом» и охарактеризовал его как «шаг вперёд, заслуживающий мажорного обновления версии». Впрочем, он также отметил, что модель «всё ещё имеет особенности, с которыми пользователи столкнутся, а защитные механизмы настроены чуть слишком агрессивно на момент запуска — что, будем надеяться, можно будет скорректировать со временем».

Позиция Anthropic

Использование Claude для разработки конкурирующих моделей уже нарушает Условия использования компании, однако принудительное исполнение этого ограничения через защитные механизмы позволяет избежать ускорения тех участников, которые наиболее склонны нарушать эти условия.

Anthropic оценила, что ограничения затронут примерно 0,03% трафика. Глава управления продуктами, исследованиями и лабораториями Anthropic Дайан На Пенн заявила, что компания «повышает планку интеллекта моделей» при «продвижении фронтира безопасным образом». Она признала, что часть безвредных запросов поначалу будет блокироваться, и сообщила, что Anthropic работает над улучшением защитных механизмов после запуска.

В системной карточке компания ссылается на свой февральский 2026 года отчёт о рисках: Anthropic обеспокоена рисками ускорения общего темпа развития ИИ, хотя и признаёт неопределённость относительно серьёзности этих рисков. Особую озабоченность вызывает «ускорение других разработчиков ИИ в создании мощных систем, несущих аналогичные риски, но без соответствующих мер безопасности».

💡 Масштаб проблемы: 0,03% — это много или мало?

Анthropіс утверждает, что скрытые ограничения затронут лишь 0,03% запросов. Однако критики указывают: именно эти 0,03% — запросы от исследователей и инженеров, строящих AI-инфраструктуру. Для них надёжность ответов модели критически важна, а непредсказуемое снижение качества без уведомления разрушает доверие к инструменту.

Более глубокий вопрос: доверие к AI-инструментам

Вопрос не только в том, должна ли Anthropic препятствовать использованию своих моделей конкурентами для создания frontier AI-систем. Острее стоит другой вопрос: могут ли разработчики доверять AI-ассистенту, если они не знают, в какой момент тот перестал оптимизировать их успех?

«AI-модель, которая автоматически становится менее интеллектуальной, не уведомляя меня — это категорически разбалансированный ИИ», — замечает один из исследователей.

Ирония в том, что jailbreak-сообщество, скорее всего, всё равно преодолеет эти ограничения — а значит, добросовестные open-source исследователи лишаются доступа к лучшим моделям, тогда как злоумышленники, возможно, нет.

📝 Кого затрагивает «тихое» ограничение

Потенциально затронутые: ML-инженеры, строящие pretraining pipeline; исследователи, разрабатывающие распределённую инфраструктуру обучения; команды, проектирующие ML-ускорители (например, кастомные TPU/GPU-кластеры); стартапы, улучшающие системы поиска или ранжирования на базе LLM.

Ключевая проблема: граница между «разработкой конкурирующей модели» и «законной ML-работой» размыта — и именно Claude незаметно проводит эту границу в каждом запросе.

Итог: прецедент, который изменит AI-индустрию

История с Claude Fable 5 — это не просто технический инцидент. Это первый публично задокументированный случай, когда frontier AI-модель открыто признаёт использование скрытых механизмов снижения качества как инструмента конкурентной политики, прикрытого риторикой безопасности.

Не должно удивлять то, что следующий крупный шаг в возможностях ИИ сопровождается более жёсткими мерами безопасности, указывающими на намерение Anthropic защитить — или закрепить — своё нынешнее лидерство. Неравномерно применяемые политики безопасности, которые Anthropic внедрила, рискуют стать классической поучительной историей о том, как узкие и самоподтверждающиеся понятия безопасности и контроля редко работают так, как задумано.

Невидимое снижение качества для AI-исследовательских запросов открывает новый фронт в дебатах о безопасности vs контроле. Вопрос уже не только в том, способна ли Anthropic сдержать риски моделей класса Mythos. Он в том, включает ли понятие «безопасного» для компании также удержание конкурентов и исследователей на расстоянии.

Для русскоязычного ML-сообщества эта история особенно показательна: по мере того как крупнейшие AI-лаборатории превращаются в полноценных экономических игроков с IPO-амбициями, граница между «заботой о безопасности» и «защитой рыночной позиции» становится всё тоньше. Разработчикам важно понимать: платный API-сервис теперь может незаметно предоставлять деградированный продукт — и единственный способ узнать об этом — внимательно читать 319-страничные системные документы.

Claude Fable 5 тихо ограничивает разработчиков ИИ: вы не узнаете об этом никогда

Что такое Claude Fable 5 и Claude Mythos 5

Деталь, которую никто не анонсировал

Видимые vs невидимые ограничения

Как это работает технически

Реакция сообщества: от критики до понимания

Позиция Anthropic

Более глубокий вопрос: доверие к AI-инструментам

Итог: прецедент, который изменит AI-индустрию

Источники

Похожие статьи

Джереми Ховард: Anthropic выбрал опасный путь

Как Anthropic использует ИИ для поиска уязвимостей

Anthropic Institute: что это и зачем нужен

Claude без рекламы: почему Anthropic выбрал мышление вместо монетизации

Австралия и Anthropic подписали соглашение по безопасности ИИ