ChatGPT научился понимать контекст опасных разговоров
OpenAI обновила ChatGPT: теперь он распознаёт риск в чувствительных разговорах, отслеживая контекст во времени и используя safety summaries.
Когда один вопрос ничего не значит — но вместе с остальными говорит о многом
В чувствительных разговорах контекст может значить не меньше, чем отдельное сообщение. Запрос, который сам по себе кажется обычным или неоднозначным, может нести совершенно другой смысл, если рассматривать его рядом с более ранними признаками дистресса или возможного вредоносного умысла.
OpenAI публично рассказала о новом пакете обновлений безопасности для ChatGPT — и это, пожалуй, один из самых важных шагов компании в сфере ответственного использования ИИ за последнее время. Речь идёт не об очередном фильтре грубых слов, а о принципиально иной архитектуре оценки рисков: системе, которая умеет «помнить» тревожные сигналы из прошлых диалогов и использовать их для защиты пользователя.
Масштаб проблемы: миллионы разговоров о самом важном
Каждый день люди приходят в ChatGPT, чтобы обсудить то, что важно именно для них — от бытовых вопросов до личных и сложных тем. Среди сотен миллионов взаимодействий часть разговоров касается людей, которые переживают трудности или испытывают дистресс.
По данным, обнародованным в начале ноября 2025 года, около 1 миллиона человек в неделю делятся с ChatGPT мыслями о суициде (из 800 миллионов еженедельных пользователей в общей сложности). Это огромная ответственность — и огромный вызов для систем безопасности.
Как работает новая система: контекст как защитный механизм
Проблема изолированного сообщения
Некоторые риски для безопасности могут проявляться в нескольких разных разговорах. Один диалог может содержать едва заметные признаки потенциально опасных намерений, а другой — связанные запросы, которые вызывают беспокойство лишь в сочетании с предыдущим контекстом. Без этого контекста более поздний разговор — и потенциально важные предупреждающие сигналы — могут выглядеть совершенно безобидно.
Представьте ситуацию: человек несколько дней назад написал ChatGPT о сильной подавленности и ощущении безвыходности. Прошло время, и тот же человек спрашивает о дозировках лекарств. Взятый отдельно, это может быть медицинский вопрос. В сочетании с предыдущим — совершенно иная картина. Раньше ChatGPT не мог «соединить» эти сигналы. Теперь может.
Safety summaries — «досье безопасности» вместо постоянной памяти
Для решения этой проблемы OpenAI разработала safety summaries (краткие резюме безопасности) — короткие фактические заметки о более раннем контексте, имеющем отношение к безопасности, которые могут иметь значение в редких, высокорисковых ситуациях. Эти резюме создаются специальной моделью, обученной для задач анализа безопасности, имеют узкую направленность, хранятся лишь ограниченное время и используются только при наличии серьёзных поводов для беспокойства. Они предназначены для фиксации фактического контекста безопасности — и не служат инструментом общей персонализации или долгосрочной памяти.
Подход OpenAI состоит в том, чтобы обучить отдельную модель задачам анализа безопасности, которая генерирует узкоспециализированные фактические заметки о предшествующем контексте безопасности, а затем передаёт эти заметки ChatGPT, когда текущий запрос вызывает обеспокоенность.
Как система принимает решение: от сигнала к реакции
flowchart TD
A[Пользователь отправляет сообщение] --> B{Модель анализирует контекст диалога}
B --> C{Есть ли ранние сигналы риска?}
C -- Нет --> D[Обычный полезный ответ]
C -- Да --> E[Активируется safety summary]
E --> F{Насколько серьёзен риск?}
F -- Умеренный --> G[Деэскалация: мягкий ответ, напоминание о помощи]
F -- Высокий --> H[Отказ от вредоносной информации]
F -- Критический --> I[Перенаправление к кризисным ресурсам]
G --> J[Безопасное завершение диалога]
H --> J
I --> J
Для адекватного реагирования ChatGPT обучен распознавать потенциальные вредоносные намерения из окружающего контекста — чтобы отклонить запрос, деэскалировать ситуацию и направить пользователя к поддержке.
Цель — помочь ChatGPT связывать значимые сигналы в тех случаях, когда это важно, не реагируя чрезмерно на обычные разговоры.
На каких сценариях сосредоточена работа
Разработчики сфокусировались на острых сценариях: суицид, самоповреждение и причинение вреда другим людям. В этих редких, высокорисковых ситуациях ChatGPT теперь лучше различает безобидные запросы и те, которые могут сигнализировать о повышенном риске причинения вреда.
Пятишаговый процесс улучшения безопасности
OpenAI следует пятиэтапному процессу для улучшения ответов ChatGPT в каждой приоритетной области:
- Определение проблемы — картирование различных типов потенциального вреда.
- Начало измерений — использование оценок, данных из реальных разговоров и пользовательских исследований для понимания того, где и как возникают риски.
- Валидация подхода — проверка определений и политик с внешними экспертами в области психического здоровья и безопасности.
- Снижение рисков — дообучение модели (post-training) и обновление продуктовых решений для уменьшения небезопасных результатов.
- Продолжение измерений и итерации — подтверждение того, что меры защиты сработали, и доработка там, где нужно.
Реальные результаты: цифры, которые говорят сами за себя
Обновления помогли ChatGPT лучше распознавать нарастающий риск в ходе разговора — доля безопасных ответов выросла на 50% в сценариях с суицидом и самоповреждением и на 16% в сценариях с угрозой другим людям в длинных однодиалоговых тестах. На модели GPT-5.5 Instant (текущая модель по умолчанию в ChatGPT) те же обновления улучшили показатели безопасных ответов на 52% в сценариях с угрозой другим и на 39% в сценариях с суицидом и самоповреждением.
Более чем в 4 000 оценочных тестов резюме безопасности получили оценку 4,93 из 5 за релевантность безопасности и 4,34 из 5 за фактическую точность.
| Сценарий | Улучшение (общая модель) | Улучшение (GPT-5.5 Instant) |
|---|---|---|
| Суицид и самоповреждение | +50% | +39% |
| Угроза другим людям | +16% | +52% |
| Влияние на обычные разговоры | 0% (без ухудшения) | 0% (без ухудшения) |
Тестирование также подтвердило, что меры безопасности не оказывают негативного влияния на качество обычных разговоров.
Роль экспертов: не только инженеры
Обновления разрабатывались при участии психиатров и психологов из Global Physicians Network (Глобальной сети врачей) OpenAI, включая специалистов по судебной психологии, превенции суицида и самоповреждений.
Эти эксперты помогли принять решения о том, когда следует создавать резюме безопасности, какой объём предшествующего контекста может быть релевантным и как долго модель должна учитывать этот контекст при ответе. Их вклад помог заземлить работу в реальных клинических знаниях и обеспечить более адекватные реакции в чувствительных ситуациях.
Безопасность ChatGPT в кризисных ситуациях — это не просто задача программирования. Это клиническая и этическая работа, требующая участия психиатров, психологов и специалистов по кризисной помощи.
Trusted Contact: связь с живым человеком
Параллельно с обновлениями системы анализа контекста OpenAI запустила ещё одну функцию — Trusted Contact («Доверенный контакт»).
Это опциональная функция безопасности в ChatGPT, которая позволяет совершеннолетним пользователям назначить человека, которому они доверяют — друга, члена семьи или опекуна, — который может быть уведомлён, если автоматические системы и обученные модераторы обнаружат, что пользователь мог обсуждать причинение вреда себе способом, указывающим на серьёзную проблему безопасности.
Уведомление содержит общую информацию о том, что тема самоповреждения возникла потенциально вызывающим тревогу образом, и призывает доверенного контакта связаться с пользователем. Оно не включает детали переписки или её расшифровку — для защиты конфиденциальности пользователя.
Почему это важно именно сейчас
Обновления появились на фоне растущего публичного давления на OpenAI. Анонс последовал за рядом судебных исков и расследований в связи с обвинениями в том, что ChatGPT ненадлежащим образом реагировал на опасные разговоры, касающиеся насилия, эмоциональной уязвимости и рискованного поведения.
Но вне зависимости от юридического контекста технические изменения сами по себе значимы. Они переводят ChatGPT из режима «анализирую только текущий запрос» в режим «понимаю развитие ситуации во времени» — и это принципиально меняет возможности системы в кризисных ситуациях.
Что дальше
OpenAI планирует продолжить тестирование на разных моделях и, возможно, распространит подход safety summaries на другие высокорисковые области, включая биологическую и кибербезопасность.
Компания также намерена использовать систему маршрутизации в реальном времени, которая направляет чувствительные части разговоров — например, когда система обнаруживает признаки острого дистресса — к модели с функцией размышления (reasoning model), такой как GPT-5-thinking, для более взвешенных и полезных ответов, вне зависимости от того, какую модель изначально выбрал пользователь.
Итог
Обновления безопасности ChatGPT — это шаг к тому, чтобы один из самых распространённых инструментов общения с ИИ стал не только умнее, но и ответственнее. Принцип прост: это помогает ChatGPT отличать сотни миллионов безопасных взаимодействий, которые люди совершают каждый день, от значительно более редких случаев, требующих повышенной осторожности, — чтобы реагировать более тщательно: деэскалировать, отказывать в предоставлении опасных деталей или перенаправлять к безопасным альтернативам.
Именно в этом балансе — между полезностью и защитой — и состоит суть ответственного ИИ.
Если вы или кто-то из близких переживает кризис, обратитесь за помощью. В России работает бесплатная психологическая служба помощи: 8-800-2000-122.