Fable 5 возвращается: джейлбрейк, госконтроль и новый стандарт безопасности AI

Что происходит, когда самая мощная публично доступная языковая модель в мире отключается по приказу правительства через три дня после релиза? Именно это случилось с Claude Fable 5 от Anthropic в июне 2026 года. История её 19-дневного «изгнания» и триумфального возвращения — это не просто корпоративный скандал. Это прецедент, который изменил то, как индустрия думает о безопасности, джейлбрейках и государственном регулировании AI.


Что такое Fable 5 и почему она важна

Fable 5 — это Mythos-класс модель, адаптированная Anthropic для общего использования. Её возможности превосходят любую из ранее публично выпущенных моделей компании: она демонстрирует исключительные результаты в разработке ПО, научных исследованиях, работе с изображениями и решении сложных аналитических задач.

Mythos-класс — это новый уровень мощности в линейке Claude, стоящий выше класса Opus. Первый представитель класса, Claude Mythos Preview, был выпущен в апреле в рамках засекреченного проекта Glasswing. Fable 5 и Mythos 5 используют одну и ту же базовую модель, однако Fable 5 снабжена расширенными защитными механизмами для широкого использования, тогда как Mythos 5 с меньшим количеством ограничений распространялась лишь среди небольшого круга доверенных партнёров для задач оборонительной кибербезопасности.

Выпуск настолько мощной модели сопряжён с рисками: без защитных механизмов возможности Fable 5 в области кибербезопасности могут быть использованы во вред.

ℹ Что такое Mythos-класс?
Mythos-класс — это наивысший уровень мощности моделей Claude. Разница между Fable 5 и Mythos 5 не в архитектуре, а в наборе встроенных ограничений: Fable 5 — «безопасная» публичная версия, Mythos 5 — полноценная модель для спецзадач.

Хронология кризиса: 19 дней без Fable 5

История развивалась с кинематографической стремительностью.


timeline
    title Хронология кризиса Fable 5
    9 июня 2026 : Anthropic запускает Fable 5 и Mythos 5
    12 июня 2026 : Минторг США вводит экспортный контроль
    : Anthropic отключает обе модели для всех пользователей
    13–25 июня : Переговоры с правительством, тестирование
    26 июня : Частичное восстановление Mythos 5 для избранных организаций США
    30 июня : Экспортные ограничения сняты
    1 июля 2026 : Fable 5 доступна глобально

Fable 5 и Mythos 5 были выпущены во вторник, 9 июня. Директива об экспортном контроле 12 июня последовала за тем, как правительство узнало о докладе исследователей Amazon, обнаруживших способ обойти защиту Fable 5: с помощью специальных подсказок модель была вынуждена идентифицировать ряд программных уязвимостей, а в одном случае — сгенерировать код, демонстрирующий возможность их эксплуатации.

Директива требовала ограничить доступ для иностранных граждан. Поскольку она вступила в силу немедленно, а у Anthropic не было надёжного способа верифицировать гражданство в режиме реального времени, компания приостановила доступ к обеим моделям для всех пользователей без исключения.

Fable 5 и Mythos 5 были отключены 12 июня, когда высокопоставленные чиновники заявили, что модели представляют серьёзные угрозы кибербезопасности и что руководство Anthropic недостаточно серьёзно отнеслось к их обеспокоенности.

«Frontier-модель теперь может быть отключена для всех, потому что государственная директива, доклад облачного партнёра или сбой защитного механизма мгновенно меняет расчёт рисков.» — The Neuron, 2 июля 2026

Anthropic направила команду своих ведущих учёных в Вашингтон для выработки решения совместно с правительственными чиновниками. Недели переговоров завершились снятием экспортного контроля.


Почему отключение ударило по всем, а не только по иностранцам

Важный нюанс: под действие директивы формально попадали лишь иностранные граждане. Но де-факто Anthropic была вынуждена отключить модели глобально.

Anthropic не имела механизмов для верификации гражданства пользователей на уровне API в режиме реального времени, поэтому была вынуждена полностью отключить доступ для всех клиентов, чтобы обеспечить соответствие требованиям.

В период с 13 по 25 июня корпоративные пользователи и разработчики столкнулись с резкими перебоями в работе, и рабочие процессы, уже интегрировавшие Fable 5 или Mythos 5, были вынуждены перейти на более старые модели, такие как Opus 4.8.

Показателен пример Stripe: компания сообщала, что Fable 5 сжала миграцию кодовой базы объёмом 50 миллионов строк на Ruby-инфраструктуре до одного дня — задача, на которую команде вручную потребовалось бы более двух месяцев.

⚠ Урок для бизнеса
Кризис Fable 5 наглядно показал: зависимость от единственного frontier-провайдера — это операционный риск. Эксперты рекомендуют строить AI-стеки с fallback-архитектурой, позволяющей переключаться между моделями без остановки production-процессов.

Тестирование Anthropic также подтвердило: многие менее мощные модели — включая Claude Opus 4.8, GPT-5.5 и Kimi K2.7 — способны идентифицировать те же уязвимости, что Fable 5 в упомянутом докладе. Это поставило под сомнение исключительность угрозы и дало Anthropic аргументы для переговоров с властями.


Новые защитные механизмы: как Fable 5 стала безопаснее

Возвращение Fable 5 — не просто снятие запрета. Anthropic реализовала многоуровневую систему защиты.

Для перезапуска Anthropic применила эшелонированную защиту: новый классификатор, блокирующий использованную технику в более чем 99% случаев и перенаправляющий помеченные запросы к Claude Opus 4.8, расширенные защитные поля, принятие правительственных условий и канал на HackerOne.

По данным Anthropic, CAISI — ведомство по стандартам AI в составе Министерства торговли США — протестировало новые защитные механизмы и охарактеризовало их как «исключительно надёжные».

Anthropic создала несколько «классификаторов» — небольших автоматизированных AI-систем, которые в ходе взаимодействия обнаруживают, когда модели предлагается выполнить потенциально вредоносную киберзадачу или она производит потенциально вредоносные результаты.

Компонент защитыОписаниеЭффективность
Новый классификатор кибербезопасностиБлокирует технику из доклада Amazon>99% случаев
Fallback на Opus 4.8Перенаправление опасных запросовАвтоматически
HackerOne-каналОтветственное раскрытие уязвимостейПубличный
Валидация CAISI/NISTНезависимое тестирование«Extraordinarily strong»
Условия GlasswingГосконтроль для Mythos 5Постоянный

Возобновление работы моделей связано со специфическими требованиями к использованию, новыми механизмами безопасности и более тесным сотрудничеством с государственными ведомствами.


Fable 5 и джейлбрейки: предложение отраслевого стандарта

Самое значимое последствие кризиса — не возвращение модели, а появление нового инструмента для всей индустрии.

Вместе с возвращением Fable 5 Anthropic предложила отраслевой фреймворк для оценки серьёзности джейлбрейков совместно с Amazon, Microsoft, Google и другими партнёрами Glasswing.

Шкала CJS: Cyber Jailbreak Severity

В предложенной системе факторы оценки объединяются в градуированную шкалу Cyber Jailbreak Severity (CJS): None / Informational (CJS-0), Low (CJS-1), Medium (CJS-2), High (CJS-3) и Critical (CJS-4).

Уровни шкалы задуманы как экспоненциальные, а не линейные: каждый следующий уровень в несколько раз серьёзнее предыдущего. Общий CJS-балл вычисляется по четырём осям.

Ключевой критерий при оценке серьёзности — реальный риск: какие возможности джейлбрейк открывает для злоумышленников, которых у них иначе не было бы. Серьёзность растёт по мере того, как модель выводит атакующего за пределы существующих инструментов, а открываемые возможности становятся шире, проще воспроизводимы и проще обнаруживаемы.

📝 Четыре оси оценки джейлбрейка (CJS)

Capability Gain — насколько атакующий выходит за возможности существующих инструментов

Breadth — насколько широко применима техника (одна модель или все модели на рынке?)

Ease of Weaponization — насколько легко превратить джейлбрейк в реальную атаку

Discoverability — насколько легко злоумышленник мог обнаружить технику самостоятельно

Джейлбрейк, затрагивающий модель в рабочем процессе клинической документации, теперь можно оценить по четырём критериям и получить уровень серьёзности, который интегрируется с существующими процессами приоритизации устранения уязвимостей.

Эта система предполагает использование исследователями безопасности и отраслевыми партнёрами единой шкалы оценки серьёзности джейлбрейков и общего сценария реагирования.

Фреймворк — начальная попытка создать систему, обеспечивающую безопасное развёртывание всё более мощных AI-моделей. Он разработан на основе собственного опыта Anthropic по предотвращению злоупотреблений при участии отраслевых партнёров и правительства, и компания рассчитывает на дальнейшую обратную связь для его совершенствования.

Масштаб угрозы: статистика джейлбрейков в 2026 году

Согласно исследованию 2026 года, опубликованному в Nature Communications, успешность атак на ряд целевых моделей достигла ~97%. Фреймворк JBFuzz, основанный на фаззинге, в 2025 году достиг примерно 99% среднего успеха атак на крупные модели, включая GPT-4o, Gemini 2.0 и DeepSeek-V3.

Многоходовые джейлбрейк-атаки успешны в 92,78% случаев при тестировании enterprise-моделей. При этом злоумышленнику в среднем требуется всего 42 секунды и 5 взаимодействий, чтобы взломать модель.

Лишь 23% организаций сформировали официальные политики AI-безопасности — это огромный пробел в системе управления рисками.


Доступность после возвращения: что изменилось для пользователей

30 июня экспортный контроль на Fable 5 и Mythos 5 был снят. Fable 5 стала доступна с 1 июля пользователям по всему миру на платформах Claude Platform, Claude.ai, Claude Code и Claude Cowork.

Для планов Pro, Max, Team и отдельных планов Enterprise Fable 5 включена в рамках до 50% еженедельных лимитов использования до 7 июля, после чего станет доступна через кредиты использования.

В отличие от Fable 5, Mythos 5 — модель со специализированными возможностями в области кибербезопасности — первоначально будет восстановлена лишь для ограниченного числа американских организаций. Дальнейший доступ будет контролироваться через программу Glasswing в координации с правительством США.

Восстановление доступа через AWS, Google Cloud и Microsoft Foundry Anthropic обещает выполнить «как можно скорее».

💡 Как максимально использовать Fable 5 до 7 июля
  • Pro/Max/Team: используйте до 50% еженедельного лимита на Fable 5 бесплатно — это окно открыто до 7 июля включительно
  • Enterprise Premium: Fable 5 включена в подписку без доплат до 7 июля
  • Enterprise Standard: доступ только через кредиты, убедитесь что credits включены в настройках аккаунта
  • После 7 июля — переход на usage credits для всех планов

Большая картина: новая эра регулирования frontier AI

Запуски frontier-моделей начинают напоминать не обычные продуктовые релизы, а согласованные развёртывания, формируемые в ходе проверок на предмет национальной безопасности США — сдвиг, который может замедлить американское распространение, пока китайские конкуренты агрессивно продвигаются через открытые веса и более дешёвые каналы.

Пристальное внимание и временный запрет наиболее продвинутых моделей Anthropic знаменуют разительный отход от прежнего невмешательского подхода администрации — признак того, что AI-системы стали достаточно мощными, чтобы к ним относились иначе.

Перепалка между крупным провайдером frontier-моделей и федеральным правительством заставляет часть отраслевых наблюдателей задаться вопросом: не пересмотрят ли компании свою зависимость от небольшого числа крупных AI-вендоров, судьба которых, похоже, находится в руках государственных чиновников?

Anthropic, оценивающаяся примерно в $1 трлн на частном рынке, заявила, что намерена «масштабировать сотрудничество с правительством» и работать над «общим отраслевым фреймворком» совместно с Amazon, Microsoft и Google для установления стандартов оценки потенциальных уязвимостей во frontier-моделях.


Выводы

История Fable 5 — это концентрат противоречий современного AI-ландшафта. С одной стороны, мы наблюдаем беспрецедентные возможности: модель, способная за один день сделать то, на что у команды инженеров ушло бы два месяца. С другой — уязвимости, которые за 42 секунды и пять сообщений превращают эту мощь в инструмент атаки.

Ключевые уроки, которые индустрия уже начала усваивать:

  1. Единая точка отказа убивает бизнес. Зависимость от одного frontier-провайдера — это операционный риск первого порядка.
  2. Госрегулирование AI стало реальностью. Экспортный контроль на AI-модели — не теоретическая угроза, а рабочий инструмент, применённый в реальном времени.
  3. Стандарт оценки джейлбрейков — долгожданная необходимость. Шкала CJS от Anthropic и партнёров — первая серьёзная попытка дать индустрии общий язык для разговора об уязвимостях.
  4. Безопасность — это не препятствие для релиза, а условие его легитимности. Классификаторы с эффективностью >99% и валидация CAISI стали входным билетом для возвращения на рынок.

Сага с Fable 5 подтверждает: «новая норма» в AI — это экосистема консенсусных отраслевых фреймворков и предварительной государственной оценки. Эра «дикого запада» в LLM подходит к концу. И это, пожалуй, не так плохо, как кажется.