Как Anthropic использует ИИ для поиска уязвимостей

Введение: когда ИИ находит то, что люди пропустили годами

Представьте: баг скрывается в опенсорсном проекте 27 лет. Миллионы строк кода, сотни ревью, автоматические сканеры — и никто ничего не замечает. А потом приходит ИИ и находит его за несколько часов.

Именно это произошло, когда Anthropic запустила Claude Mythos Preview и Project Glasswing. Mythos Preview обнаружила 27-летнюю уязвимость в OpenBSD — одной из самых защищённых операционных систем в мире, используемой для запуска межсетевых экранов и другой критической инфраструктуры. Это не маркетинговый кейс — это сигнал о том, что в кибербезопасности началась новая эпоха.

В этой статье разбираем ключевые компоненты AI-стека Anthropic для поиска уязвимостей: открытый референсный харнес defending-code-reference-harness, модель Claude Mythos, проект Glasswing и инструмент Claude Security. И главное — что всё это означает для разработчиков и специалистов по безопасности.

Project Glasswing: масштаб, который меняет правила игры

В апреле 2026 года Anthropic представила Claude Mythos Preview — новую большую языковую модель, способную автономно находить zero-day уязвимости и создавать для них эксплойты. Вместе с ней был запущен Project Glasswing — программа контролируемого развёртывания этих возможностей среди доверенных организаций.

По данным Anthropic, модель Claude Mythos обнаружила тысячи серьёзных уязвимостей более чем в 1 000 опенсорсных проектов. Всего было выявлено свыше 23 000 потенциальных уязвимостей, многие из которых подтверждены как критические или высокосерьёзные.

Цифры впечатляют, но важно понимать качество находок:

Из всех выявленных уязвимостей 1 900 были проверены внешними охранными фирмами, из которых 1 726 подтверждены — и более 1 000 из них получили рейтинг «высокий» или «критический». По текущим оценкам Anthropic, число подтверждённых критических и высокосерьёзных уязвимостей достигнет около 3 900, а по мере продолжения сканирования может вырасти до 6 200.

Несколько конкретных примеров из отчёта Glasswing:

Уязвимость позволяла удалённо обрушить любую машину под управлением OpenBSD простым подключением к ней. Также была обнаружена 16-летняя уязвимость в FFmpeg — в строке кода, которую автоматизированные тесты проверяли пять миллионов раз, так и не поймав проблему. Кроме того, модель автономно нашла и объединила несколько уязвимостей в ядре Linux, позволяющих эскалировать привилегии от обычного пользователя до полного контроля над машиной.

⚠ Двойное применение

Возможности, которые помогают защитникам находить уязвимости, могут использоваться и злоумышленниками. Именно поэтому Anthropic строго ограничивает доступ к Mythos Preview и внедряет многоуровневые механизмы безопасности.

Anthropic существенно расширяет Project Glasswing, подключая 150 новых критически важных организаций по всему миру. Изначально в проекте участвовало около 50 партнёров, тестирующих модель для обнаружения уязвимостей.

Mozilla сообщила об обнаружении 271 уязвимости в Firefox, а Mythos помогла Palo Alto Networks выявить десятки дефектов.

Open-source харнес: defending-code-reference-harness

Anthropic опубликовала референсную реализацию для автономного поиска и устранения уязвимостей с помощью Claude — на основе опыта партнёрства с командами безопасности ряда организаций с момента запуска Claude Mythos Preview.

Репозиторий defending-code-reference-harness на GitHub — это не просто набор скриптов, а полноценный учебный материал и отправная точка для построения собственного пайплайна. Для облегчённого прохождения того же цикла recon → find → triage → report → patch предлагается сопутствующий cookbook на базе чистого SDK.

Архитектура пайплайна


graph TD
    A[🔍 Recon\nРазведка цели] --> B[🐛 Find\nПоиск уязвимостей]
    B --> C[⚖️ Triage\nПриоритизация]
    C --> D[📄 Report\nФормирование отчёта]
    D --> E[🔧 Patch\nГенерация патча]
    E --> F[✅ Validation\nПроверка исправления]
    B --> G{Автономный режим?}
    G -- Да --> H[gVisor Sandbox]
    G -- Нет --> C
    H --> C

Харнес реализует набор «навыков» (skills), каждый из которых соответствует отдельному этапу:

Навык	Команда	Что делает	Режим безопасности
Быстрый старт	`/quickstart`	Обзор проекта, первичный анализ	Read/Write only
Моделирование угроз	`/threat-model`	Построение threat model	Read/Write only
Сканирование	`/vuln-scan`	Поиск уязвимостей	Read/Write only
Триаж	`/triage`	Приоритизация находок	Read/Write only
Патчинг	`/patch`	Генерация исправлений	Sandbox (gVisor)
Кастомизация	`/customize`	Адаптация харнеса	Выполняет код

Команды /quickstart, /threat-model, /vuln-scan и /triage работают только с чтением и записью файлов. Запуск /patch на статических находках также ограничен чтением/записью. Команда /customize редактирует код харнеса и запускает команды валидации. Любой из этих навыков безопасно запускать без изолированной среды — при условии проверки и одобрения каждого действия инструмента в Claude Code. Автономный пайплайн выполняет код цели и отказывается работать вне gVisor-песочницы без явного переопределения.

# Быстрый старт с харнесом
git clone https://github.com/anthropics/defending-code-reference-harness
cd defending-code-reference-harness

# Настройка песочницы (только один раз)
bash scripts/setup_sandbox.sh

# Запуск автономного пайплайна в изолированной среде
bin/vp-sandboxed

# Или запуск через Claude Code (интерактивный режим)
claude

💡 Для кого подходит харнес?

Референсный харнес идеален как стартовая точка для изучения подходов к AI-сканированию. Как указывают сами авторы, лучший способ использования — почерпнуть идеи и собрать собственный пайплайн под свои нужды, стиль работы и целевую среду.

Claude Security: управляемая альтернатива для предприятий

Для тех, кто не хочет настраивать собственный пайплайн, Anthropic предлагает облачный продукт. Claude Security — хостинговый продукт, который находит и исправляет уязвимости в исходном коде сразу в нескольких проектах. Он сканирует репозиторий, применяет многоэтапный пайплайн верификации для сокращения ложных срабатываний и позволяет управлять находками на всём жизненном цикле: триаж, валидация исправлений и быстрая генерация патчей.

Claude Security может сканировать полные корпоративные репозитории, отмечая потенциальные уязвимости, а затем открывать Claude Code для их устранения — сжимая обнаружение и реагирование до одной рабочей сессии.

По сравнению с традиционными инструментами статического анализа подход кардинально отличается:

Параметр	Традиционный SAST	Claude Security
Принцип работы	Сопоставление с паттернами	Семантическое понимание кода
Находки	Известные уязвимости	Новые zero-day уязвимости
Контекст	Ограничен файлом	Вся кодовая база
Патчи	Ручная разработка	Автогенерация с валидацией
Ложные срабатывания	Высокий процент	Многоэтапная верификация
Целевая аудитория	DevSecOps-команды	Enterprise + open-source

Компания собрала обратную связь от сотен организаций, что позволило сделать Claude Security более полезным для корпоративных применений. В частности, Anthropic доработала инструмент для усиленной валидации AI-находок — каждой из них теперь присваивается процент уверенности для снижения числа ложных срабатываний.

ℹ Доступность

Claude Security доступна в публичной бете для клиентов Claude Enterprise. Open-source мейнтейнеры могут подать заявку на бесплатный ускоренный доступ через официальный сайт Anthropic.

Ответственное раскрытие: новые правила для AI-эпохи

С ростом мощности инструментов обостряется вопрос: как правильно сообщать об уязвимостях, если их число исчисляется тысячами?

Anthropic создаёт AI-инструменты для более быстрого и дешёвого поиска уязвимостей и разрабатывает чёткую систему обработки выявленных уязвимостей с учётом существующих лучших практик отрасли и уникальных вызовов, создаваемых масштабом и скоростью этих инструментов.

Принципы ответственного раскрытия, которых придерживается Anthropic:

Anthropic следует отраслевому стандарту 90-дневного срока раскрытия, предоставляет проверенные людьми отчёты с предложенными исправлениями там, где это возможно, и регулирует темп подачи отчётов так, чтобы он соответствовал возможностям мейнтейнеров.

Каждый отчёт, как правило, отражает находку, проверенную специалистом-человеком. Отчёты, полученные с помощью AI-обнаружения, явно помечаются как таковые. При наличии доступа к исходному коду и если инструменты предлагают потенциальный патч, он включается в отчёт с указанием источника. Anthropic не направляет большой объём находок в один проект без предварительного согласования темпа с мейнтейнером.

Однако узкое место перемещается: раньше проблемой был поиск уязвимостей, теперь — их обработка.

«Относительная лёгкость нахождения уязвимостей по сравнению со сложностью их исправления становится главным вызовом для кибербезопасности.» — Anthropic

Для помощи мейнтейнерам опенсорсных проектов в обработке и триаже отчётов Anthropic вступила в партнёрство с проектом Alpha-Omega Фонда безопасности открытого ПО (OpenSSF).

Гонка вооружений: защитники против атакующих

AI-powered обнаружение уязвимостей в таком масштабе — настоящий прорыв, который делает операционную дисциплину приоритизации, триажа и устранения уязвимостей важнее, чем когда-либо прежде.

Антропик прямо говорит о рисках «гонки вооружений»:

Это не только меняет правила игры при поиске ранее скрытых уязвимостей, но и сигнализирует об опасном сдвиге, при котором злоумышленники смогут найти ещё больше zero-day уязвимостей и быстрее разрабатывать эксплойты. Очевидно, что эти модели должны быть в руках владельцев открытого ПО и защитников повсюду, чтобы найти и устранить уязвимости до того, как к ним получат доступ атакующие.

Компания прогнозирует, что мощные AI-модели, сопоставимые по возможностям с Mythos, станут широко доступны в течение нескольких месяцев — возможно, без надёжных защитных механизмов.

Возможности уровня Mythos станут более широко доступными. Anthropic заявила, что её конечная цель — обеспечить безопасное масштабное развёртывание моделей уровня Mythos. Другие AI-лаборатории строят аналогичные возможности. В течение следующего года-двух предприятия получат прямой доступ к AI-инструментам обнаружения, способным сканировать собственные кодовые базы с аналогичной глубиной.

📝 Что это значит для вашей команды

Сейчас: Начните использовать AI-сканирование для проверки собственных репозиториев — пока злоумышленники не сделали это первыми.

Процесс: Интегрируйте Claude Security или harness в CI/CD пайплайн, настройте процесс триажа и убедитесь, что команда готова к потоку новых находок.

Стратегически: Обновите threat model с учётом AI-assisted атак — скорость и масштаб атак будут расти экспоненциально.

Заключение: новая норма кибербезопасности

Антропик открыла defending-code-reference-harness не ради PR-хода. Это признание факта: AI-powered поиск уязвимостей стал реальностью, и скрывать инструменты бессмысленно — лучше вооружить защитников раньше атакующих.

Ключевые выводы:

Масштаб изменился навсегда. Инициатива Project Glasswing выявила более 10 000 уязвимостей высокого и критического уровня в широко используемых опенсорсных проектах — это демонстрирует, как ИИ стремительно меняет ландшафт безопасности ПО.
Узкое место сместилось. Проблема больше не в поиске уязвимостей — а в их обработке, верификации и патчинге. Организациям нужно перестраивать процессы вокруг этой новой реальности.
Открытость — лучшая защита. Публикация референсного харнеса и формирование норм ответственного раскрытия — правильный подход для всей отрасли.
Действовать нужно сейчас. Стратегия Anthropic предполагает широкий доступ к продвинутым моделям и инструментам при одновременном смещении отраслевого фокуса с обнаружения на более эффективные процессы патчинга и раскрытия. Узким местом кибербезопасности всё больше становятся верификация, раскрытие и патчинг уязвимостей, которые способен обнаруживать передовой ИИ.

Инструменты есть. Харнес открыт. Вопрос лишь в том, кто воспользуется ими первым — защитники или атакующие.

Введение: когда ИИ находит то, что люди пропустили годами

Project Glasswing: масштаб, который меняет правила игры

Open-source харнес: defending-code-reference-harness

Архитектура пайплайна

Claude Security: управляемая альтернатива для предприятий

Ответственное раскрытие: новые правила для AI-эпохи

Гонка вооружений: защитники против атакующих

Заключение: новая норма кибербезопасности

Источники

Похожие статьи

GPT-5.5-Cyber: ИИ на страже кибербезопасности

Claude Fable 5 тихо ограничивает разработчиков ИИ

Fable 5 возвращается: джейлбрейк, госконтроль и новый стандарт безопасности AI

Adversarial Attacks на LLM: как взламывают ИИ

Кибербезопасность в эпоху ИИ: план OpenAI