
Fable 5 возвращается: джейлбрейк, госконтроль и новый стандарт безопасности AI
Как Anthropic за 19 дней прошла путь от блокировки Fable 5 правительством США до глобального перезапуска и предложила отраслевой фреймворк оценки джейлбрейков.
Fable 5 возвращается: джейлбрейк, госконтроль и новый стандарт безопасности AI
Что происходит, когда самая мощная публично доступная языковая модель в мире отключается по приказу правительства через три дня после релиза? Именно это случилось с Claude Fable 5 от Anthropic в июне 2026 года. История её 19-дневного «изгнания» и триумфального возвращения — это не просто корпоративный скандал. Это прецедент, который изменил то, как индустрия думает о безопасности, джейлбрейках и государственном регулировании AI.
Что такое Fable 5 и почему она важна
Fable 5 — это Mythos-класс модель, адаптированная Anthropic для общего использования. Её возможности превосходят любую из ранее публично выпущенных моделей компании: она демонстрирует исключительные результаты в разработке ПО, научных исследованиях, работе с изображениями и решении сложных аналитических задач.
Mythos-класс — это новый уровень мощности в линейке Claude, стоящий выше класса Opus. Первый представитель класса, Claude Mythos Preview, был выпущен в апреле в рамках засекреченного проекта Glasswing. Fable 5 и Mythos 5 используют одну и ту же базовую модель, однако Fable 5 снабжена расширенными защитными механизмами для широкого использования, тогда как Mythos 5 с меньшим количеством ограничений распространялась лишь среди небольшого круга доверенных партнёров для задач оборонительной кибербезопасности.
Выпуск настолько мощной модели сопряжён с рисками: без защитных механизмов возможности Fable 5 в области кибербезопасности могут быть использованы во вред.
Хронология кризиса: 19 дней без Fable 5
История развивалась с кинематографической стремительностью.
timeline
title Хронология кризиса Fable 5
9 июня 2026 : Anthropic запускает Fable 5 и Mythos 5
12 июня 2026 : Минторг США вводит экспортный контроль
: Anthropic отключает обе модели для всех пользователей
13–25 июня : Переговоры с правительством, тестирование
26 июня : Частичное восстановление Mythos 5 для избранных организаций США
30 июня : Экспортные ограничения сняты
1 июля 2026 : Fable 5 доступна глобально
Fable 5 и Mythos 5 были выпущены во вторник, 9 июня. Директива об экспортном контроле 12 июня последовала за тем, как правительство узнало о докладе исследователей Amazon, обнаруживших способ обойти защиту Fable 5: с помощью специальных подсказок модель была вынуждена идентифицировать ряд программных уязвимостей, а в одном случае — сгенерировать код, демонстрирующий возможность их эксплуатации.
Директива требовала ограничить доступ для иностранных граждан. Поскольку она вступила в силу немедленно, а у Anthropic не было надёжного способа верифицировать гражданство в режиме реального времени, компания приостановила доступ к обеим моделям для всех пользователей без исключения.
Fable 5 и Mythos 5 были отключены 12 июня, когда высокопоставленные чиновники заявили, что модели представляют серьёзные угрозы кибербезопасности и что руководство Anthropic недостаточно серьёзно отнеслось к их обеспокоенности.
«Frontier-модель теперь может быть отключена для всех, потому что государственная директива, доклад облачного партнёра или сбой защитного механизма мгновенно меняет расчёт рисков.» — The Neuron, 2 июля 2026
Anthropic направила команду своих ведущих учёных в Вашингтон для выработки решения совместно с правительственными чиновниками. Недели переговоров завершились снятием экспортного контроля.
Почему отключение ударило по всем, а не только по иностранцам
Важный нюанс: под действие директивы формально попадали лишь иностранные граждане. Но де-факто Anthropic была вынуждена отключить модели глобально.
Anthropic не имела механизмов для верификации гражданства пользователей на уровне API в режиме реального времени, поэтому была вынуждена полностью отключить доступ для всех клиентов, чтобы обеспечить соответствие требованиям.
В период с 13 по 25 июня корпоративные пользователи и разработчики столкнулись с резкими перебоями в работе, и рабочие процессы, уже интегрировавшие Fable 5 или Mythos 5, были вынуждены перейти на более старые модели, такие как Opus 4.8.
Показателен пример Stripe: компания сообщала, что Fable 5 сжала миграцию кодовой базы объёмом 50 миллионов строк на Ruby-инфраструктуре до одного дня — задача, на которую команде вручную потребовалось бы более двух месяцев.
Тестирование Anthropic также подтвердило: многие менее мощные модели — включая Claude Opus 4.8, GPT-5.5 и Kimi K2.7 — способны идентифицировать те же уязвимости, что Fable 5 в упомянутом докладе. Это поставило под сомнение исключительность угрозы и дало Anthropic аргументы для переговоров с властями.
Новые защитные механизмы: как Fable 5 стала безопаснее
Возвращение Fable 5 — не просто снятие запрета. Anthropic реализовала многоуровневую систему защиты.
Для перезапуска Anthropic применила эшелонированную защиту: новый классификатор, блокирующий использованную технику в более чем 99% случаев и перенаправляющий помеченные запросы к Claude Opus 4.8, расширенные защитные поля, принятие правительственных условий и канал на HackerOne.
По данным Anthropic, CAISI — ведомство по стандартам AI в составе Министерства торговли США — протестировало новые защитные механизмы и охарактеризовало их как «исключительно надёжные».
Anthropic создала несколько «классификаторов» — небольших автоматизированных AI-систем, которые в ходе взаимодействия обнаруживают, когда модели предлагается выполнить потенциально вредоносную киберзадачу или она производит потенциально вредоносные результаты.
| Компонент защиты | Описание | Эффективность |
|---|---|---|
| Новый классификатор кибербезопасности | Блокирует технику из доклада Amazon | >99% случаев |
| Fallback на Opus 4.8 | Перенаправление опасных запросов | Автоматически |
| HackerOne-канал | Ответственное раскрытие уязвимостей | Публичный |
| Валидация CAISI/NIST | Независимое тестирование | «Extraordinarily strong» |
| Условия Glasswing | Госконтроль для Mythos 5 | Постоянный |
Возобновление работы моделей связано со специфическими требованиями к использованию, новыми механизмами безопасности и более тесным сотрудничеством с государственными ведомствами.
Fable 5 и джейлбрейки: предложение отраслевого стандарта
Самое значимое последствие кризиса — не возвращение модели, а появление нового инструмента для всей индустрии.
Вместе с возвращением Fable 5 Anthropic предложила отраслевой фреймворк для оценки серьёзности джейлбрейков совместно с Amazon, Microsoft, Google и другими партнёрами Glasswing.
Шкала CJS: Cyber Jailbreak Severity
В предложенной системе факторы оценки объединяются в градуированную шкалу Cyber Jailbreak Severity (CJS): None / Informational (CJS-0), Low (CJS-1), Medium (CJS-2), High (CJS-3) и Critical (CJS-4).
Уровни шкалы задуманы как экспоненциальные, а не линейные: каждый следующий уровень в несколько раз серьёзнее предыдущего. Общий CJS-балл вычисляется по четырём осям.
Ключевой критерий при оценке серьёзности — реальный риск: какие возможности джейлбрейк открывает для злоумышленников, которых у них иначе не было бы. Серьёзность растёт по мере того, как модель выводит атакующего за пределы существующих инструментов, а открываемые возможности становятся шире, проще воспроизводимы и проще обнаруживаемы.
Capability Gain — насколько атакующий выходит за возможности существующих инструментов
Breadth — насколько широко применима техника (одна модель или все модели на рынке?)
Ease of Weaponization — насколько легко превратить джейлбрейк в реальную атаку
Discoverability — насколько легко злоумышленник мог обнаружить технику самостоятельно
Джейлбрейк, затрагивающий модель в рабочем процессе клинической документации, теперь можно оценить по четырём критериям и получить уровень серьёзности, который интегрируется с существующими процессами приоритизации устранения уязвимостей.
Эта система предполагает использование исследователями безопасности и отраслевыми партнёрами единой шкалы оценки серьёзности джейлбрейков и общего сценария реагирования.
Фреймворк — начальная попытка создать систему, обеспечивающую безопасное развёртывание всё более мощных AI-моделей. Он разработан на основе собственного опыта Anthropic по предотвращению злоупотреблений при участии отраслевых партнёров и правительства, и компания рассчитывает на дальнейшую обратную связь для его совершенствования.
Масштаб угрозы: статистика джейлбрейков в 2026 году
Согласно исследованию 2026 года, опубликованному в Nature Communications, успешность атак на ряд целевых моделей достигла ~97%. Фреймворк JBFuzz, основанный на фаззинге, в 2025 году достиг примерно 99% среднего успеха атак на крупные модели, включая GPT-4o, Gemini 2.0 и DeepSeek-V3.
Многоходовые джейлбрейк-атаки успешны в 92,78% случаев при тестировании enterprise-моделей. При этом злоумышленнику в среднем требуется всего 42 секунды и 5 взаимодействий, чтобы взломать модель.
Лишь 23% организаций сформировали официальные политики AI-безопасности — это огромный пробел в системе управления рисками.
Доступность после возвращения: что изменилось для пользователей
30 июня экспортный контроль на Fable 5 и Mythos 5 был снят. Fable 5 стала доступна с 1 июля пользователям по всему миру на платформах Claude Platform, Claude.ai, Claude Code и Claude Cowork.
Для планов Pro, Max, Team и отдельных планов Enterprise Fable 5 включена в рамках до 50% еженедельных лимитов использования до 7 июля, после чего станет доступна через кредиты использования.
В отличие от Fable 5, Mythos 5 — модель со специализированными возможностями в области кибербезопасности — первоначально будет восстановлена лишь для ограниченного числа американских организаций. Дальнейший доступ будет контролироваться через программу Glasswing в координации с правительством США.
Восстановление доступа через AWS, Google Cloud и Microsoft Foundry Anthropic обещает выполнить «как можно скорее».
- Pro/Max/Team: используйте до 50% еженедельного лимита на Fable 5 бесплатно — это окно открыто до 7 июля включительно
- Enterprise Premium: Fable 5 включена в подписку без доплат до 7 июля
- Enterprise Standard: доступ только через кредиты, убедитесь что credits включены в настройках аккаунта
- После 7 июля — переход на usage credits для всех планов
Большая картина: новая эра регулирования frontier AI
Запуски frontier-моделей начинают напоминать не обычные продуктовые релизы, а согласованные развёртывания, формируемые в ходе проверок на предмет национальной безопасности США — сдвиг, который может замедлить американское распространение, пока китайские конкуренты агрессивно продвигаются через открытые веса и более дешёвые каналы.
Пристальное внимание и временный запрет наиболее продвинутых моделей Anthropic знаменуют разительный отход от прежнего невмешательского подхода администрации — признак того, что AI-системы стали достаточно мощными, чтобы к ним относились иначе.
Перепалка между крупным провайдером frontier-моделей и федеральным правительством заставляет часть отраслевых наблюдателей задаться вопросом: не пересмотрят ли компании свою зависимость от небольшого числа крупных AI-вендоров, судьба которых, похоже, находится в руках государственных чиновников?
Anthropic, оценивающаяся примерно в $1 трлн на частном рынке, заявила, что намерена «масштабировать сотрудничество с правительством» и работать над «общим отраслевым фреймворком» совместно с Amazon, Microsoft и Google для установления стандартов оценки потенциальных уязвимостей во frontier-моделях.
Выводы
История Fable 5 — это концентрат противоречий современного AI-ландшафта. С одной стороны, мы наблюдаем беспрецедентные возможности: модель, способная за один день сделать то, на что у команды инженеров ушло бы два месяца. С другой — уязвимости, которые за 42 секунды и пять сообщений превращают эту мощь в инструмент атаки.
Ключевые уроки, которые индустрия уже начала усваивать:
- Единая точка отказа убивает бизнес. Зависимость от одного frontier-провайдера — это операционный риск первого порядка.
- Госрегулирование AI стало реальностью. Экспортный контроль на AI-модели — не теоретическая угроза, а рабочий инструмент, применённый в реальном времени.
- Стандарт оценки джейлбрейков — долгожданная необходимость. Шкала CJS от Anthropic и партнёров — первая серьёзная попытка дать индустрии общий язык для разговора об уязвимостях.
- Безопасность — это не препятствие для релиза, а условие его легитимности. Классификаторы с эффективностью >99% и валидация CAISI стали входным билетом для возвращения на рынок.
Сага с Fable 5 подтверждает: «новая норма» в AI — это экосистема консенсусных отраслевых фреймворков и предварительной государственной оценки. Эра «дикого запада» в LLM подходит к концу. И это, пожалуй, не так плохо, как кажется.