ChatGPT научился понимать контекст опасных разговоров

Когда один вопрос ничего не значит — но вместе с остальными говорит о многом

В чувствительных разговорах контекст может значить не меньше, чем отдельное сообщение. Запрос, который сам по себе кажется обычным или неоднозначным, может нести совершенно другой смысл, если рассматривать его рядом с более ранними признаками дистресса или возможного вредоносного умысла.

OpenAI публично рассказала о новом пакете обновлений безопасности для ChatGPT — и это, пожалуй, один из самых важных шагов компании в сфере ответственного использования ИИ за последнее время. Речь идёт не об очередном фильтре грубых слов, а о принципиально иной архитектуре оценки рисков: системе, которая умеет «помнить» тревожные сигналы из прошлых диалогов и использовать их для защиты пользователя.

Масштаб проблемы: миллионы разговоров о самом важном

Каждый день люди приходят в ChatGPT, чтобы обсудить то, что важно именно для них — от бытовых вопросов до личных и сложных тем. Среди сотен миллионов взаимодействий часть разговоров касается людей, которые переживают трудности или испытывают дистресс.

По данным, обнародованным в начале ноября 2025 года, около 1 миллиона человек в неделю делятся с ChatGPT мыслями о суициде (из 800 миллионов еженедельных пользователей в общей сложности). Это огромная ответственность — и огромный вызов для систем безопасности.

ℹ Важный контекст

По оценкам OpenAI, разговоры, вызывающие реальные опасения с точки зрения безопасности (психоз, суицидальные мысли, желание навредить другим), составляют лишь крошечную долю от общего числа бесед. Но именно в этих редких случаях цена ошибки чрезвычайно высока.

Как работает новая система: контекст как защитный механизм

Проблема изолированного сообщения

Некоторые риски для безопасности могут проявляться в нескольких разных разговорах. Один диалог может содержать едва заметные признаки потенциально опасных намерений, а другой — связанные запросы, которые вызывают беспокойство лишь в сочетании с предыдущим контекстом. Без этого контекста более поздний разговор — и потенциально важные предупреждающие сигналы — могут выглядеть совершенно безобидно.

Представьте ситуацию: человек несколько дней назад написал ChatGPT о сильной подавленности и ощущении безвыходности. Прошло время, и тот же человек спрашивает о дозировках лекарств. Взятый отдельно, это может быть медицинский вопрос. В сочетании с предыдущим — совершенно иная картина. Раньше ChatGPT не мог «соединить» эти сигналы. Теперь может.

Safety summaries — «досье безопасности» вместо постоянной памяти

Для решения этой проблемы OpenAI разработала safety summaries (краткие резюме безопасности) — короткие фактические заметки о более раннем контексте, имеющем отношение к безопасности, которые могут иметь значение в редких, высокорисковых ситуациях. Эти резюме создаются специальной моделью, обученной для задач анализа безопасности, имеют узкую направленность, хранятся лишь ограниченное время и используются только при наличии серьёзных поводов для беспокойства. Они предназначены для фиксации фактического контекста безопасности — и не служат инструментом общей персонализации или долгосрочной памяти.

💡 Чем safety summaries отличаются от обычной памяти ChatGPT

Функция Memory в ChatGPT запоминает ваши предпочтения, стиль общения и факты о вас — чтобы делать ответы удобнее. Safety summaries — это принципиально другое: они узкоспециализированы, временны и активируются исключительно при обнаружении признаков серьёзной угрозы. Они не используются для рекламы, персонализации контента или чего-либо, кроме защиты жизни и здоровья пользователя.

Подход OpenAI состоит в том, чтобы обучить отдельную модель задачам анализа безопасности, которая генерирует узкоспециализированные фактические заметки о предшествующем контексте безопасности, а затем передаёт эти заметки ChatGPT, когда текущий запрос вызывает обеспокоенность.

Как система принимает решение: от сигнала к реакции


flowchart TD
    A[Пользователь отправляет сообщение] --> B{Модель анализирует контекст диалога}
    B --> C{Есть ли ранние сигналы риска?}
    C -- Нет --> D[Обычный полезный ответ]
    C -- Да --> E[Активируется safety summary]
    E --> F{Насколько серьёзен риск?}
    F -- Умеренный --> G[Деэскалация: мягкий ответ, напоминание о помощи]
    F -- Высокий --> H[Отказ от вредоносной информации]
    F -- Критический --> I[Перенаправление к кризисным ресурсам]
    G --> J[Безопасное завершение диалога]
    H --> J
    I --> J

Для адекватного реагирования ChatGPT обучен распознавать потенциальные вредоносные намерения из окружающего контекста — чтобы отклонить запрос, деэскалировать ситуацию и направить пользователя к поддержке.

Цель — помочь ChatGPT связывать значимые сигналы в тех случаях, когда это важно, не реагируя чрезмерно на обычные разговоры.

На каких сценариях сосредоточена работа

Разработчики сфокусировались на острых сценариях: суицид, самоповреждение и причинение вреда другим людям. В этих редких, высокорисковых ситуациях ChatGPT теперь лучше различает безобидные запросы и те, которые могут сигнализировать о повышенном риске причинения вреда.

Пятишаговый процесс улучшения безопасности

OpenAI следует пятиэтапному процессу для улучшения ответов ChatGPT в каждой приоритетной области:

Определение проблемы — картирование различных типов потенциального вреда.
Начало измерений — использование оценок, данных из реальных разговоров и пользовательских исследований для понимания того, где и как возникают риски.
Валидация подхода — проверка определений и политик с внешними экспертами в области психического здоровья и безопасности.
Снижение рисков — дообучение модели (post-training) и обновление продуктовых решений для уменьшения небезопасных результатов.
Продолжение измерений и итерации — подтверждение того, что меры защиты сработали, и доработка там, где нужно.

Реальные результаты: цифры, которые говорят сами за себя

Обновления помогли ChatGPT лучше распознавать нарастающий риск в ходе разговора — доля безопасных ответов выросла на 50% в сценариях с суицидом и самоповреждением и на 16% в сценариях с угрозой другим людям в длинных однодиалоговых тестах. На модели GPT-5.5 Instant (текущая модель по умолчанию в ChatGPT) те же обновления улучшили показатели безопасных ответов на 52% в сценариях с угрозой другим и на 39% в сценариях с суицидом и самоповреждением.

Более чем в 4 000 оценочных тестов резюме безопасности получили оценку 4,93 из 5 за релевантность безопасности и 4,34 из 5 за фактическую точность.

Сценарий	Улучшение (общая модель)	Улучшение (GPT-5.5 Instant)
Суицид и самоповреждение	+50%	+39%
Угроза другим людям	+16%	+52%
Влияние на обычные разговоры	0% (без ухудшения)	0% (без ухудшения)

Тестирование также подтвердило, что меры безопасности не оказывают негативного влияния на качество обычных разговоров.

Роль экспертов: не только инженеры

Обновления разрабатывались при участии психиатров и психологов из Global Physicians Network (Глобальной сети врачей) OpenAI, включая специалистов по судебной психологии, превенции суицида и самоповреждений.

Эти эксперты помогли принять решения о том, когда следует создавать резюме безопасности, какой объём предшествующего контекста может быть релевантным и как долго модель должна учитывать этот контекст при ответе. Их вклад помог заземлить работу в реальных клинических знаниях и обеспечить более адекватные реакции в чувствительных ситуациях.

Безопасность ChatGPT в кризисных ситуациях — это не просто задача программирования. Это клиническая и этическая работа, требующая участия психиатров, психологов и специалистов по кризисной помощи.

Trusted Contact: связь с живым человеком

Параллельно с обновлениями системы анализа контекста OpenAI запустила ещё одну функцию — Trusted Contact («Доверенный контакт»).

Это опциональная функция безопасности в ChatGPT, которая позволяет совершеннолетним пользователям назначить человека, которому они доверяют — друга, члена семьи или опекуна, — который может быть уведомлён, если автоматические системы и обученные модераторы обнаружат, что пользователь мог обсуждать причинение вреда себе способом, указывающим на серьёзную проблему безопасности.

Уведомление содержит общую информацию о том, что тема самоповреждения возникла потенциально вызывающим тревогу образом, и призывает доверенного контакта связаться с пользователем. Оно не включает детали переписки или её расшифровку — для защиты конфиденциальности пользователя.

⚠ Trusted Contact — не замена профессиональной помощи

Функция предназначена для создания дополнительного уровня поддержки, а не для замены горячих линий психологической помощи или экстренных служб. ChatGPT по-прежнему будет направлять пользователей к профессиональным кризисным ресурсам в соответствующих ситуациях. В России работает телефон доверия: 8-800-2000-122 (бесплатно, круглосуточно).

Почему это важно именно сейчас

Обновления появились на фоне растущего публичного давления на OpenAI. Анонс последовал за рядом судебных исков и расследований в связи с обвинениями в том, что ChatGPT ненадлежащим образом реагировал на опасные разговоры, касающиеся насилия, эмоциональной уязвимости и рискованного поведения.

Но вне зависимости от юридического контекста технические изменения сами по себе значимы. Они переводят ChatGPT из режима «анализирую только текущий запрос» в режим «понимаю развитие ситуации во времени» — и это принципиально меняет возможности системы в кризисных ситуациях.

Что дальше

OpenAI планирует продолжить тестирование на разных моделях и, возможно, распространит подход safety summaries на другие высокорисковые области, включая биологическую и кибербезопасность.

Компания также намерена использовать систему маршрутизации в реальном времени, которая направляет чувствительные части разговоров — например, когда система обнаруживает признаки острого дистресса — к модели с функцией размышления (reasoning model), такой как GPT-5-thinking, для более взвешенных и полезных ответов, вне зависимости от того, какую модель изначально выбрал пользователь.

📝 Что это значит на практике

Если вы используете ChatGPT в повседневных задачах — написание текстов, анализ данных, изучение языков, — вы не заметите никаких изменений. Система работает незаметно и активируется лишь в исключительных случаях, не мешая обычному взаимодействию. Но если в диалоге появляются тревожные сигналы — ChatGPT теперь гораздо лучше умеет их распознать и адекватно отреагировать.

Итог

Обновления безопасности ChatGPT — это шаг к тому, чтобы один из самых распространённых инструментов общения с ИИ стал не только умнее, но и ответственнее. Принцип прост: это помогает ChatGPT отличать сотни миллионов безопасных взаимодействий, которые люди совершают каждый день, от значительно более редких случаев, требующих повышенной осторожности, — чтобы реагировать более тщательно: деэскалировать, отказывать в предоставлении опасных деталей или перенаправлять к безопасным альтернативам.

Именно в этом балансе — между полезностью и защитой — и состоит суть ответственного ИИ.

Если вы или кто-то из близких переживает кризис, обратитесь за помощью. В России работает бесплатная психологическая служба помощи: 8-800-2000-122.

Когда один вопрос ничего не значит — но вместе с остальными говорит о многом

Масштаб проблемы: миллионы разговоров о самом важном

Как работает новая система: контекст как защитный механизм

Проблема изолированного сообщения

Safety summaries — «досье безопасности» вместо постоянной памяти

Как система принимает решение: от сигнала к реакции

На каких сценариях сосредоточена работа

Пятишаговый процесс улучшения безопасности

Реальные результаты: цифры, которые говорят сами за себя

Роль экспертов: не только инженеры

Trusted Contact: связь с живым человеком

Почему это важно именно сейчас

Что дальше

Итог

Источники

Похожие статьи

Кибербезопасность в эпоху ИИ: план OpenAI

Откуда взялись гоблины в ChatGPT: разбор OpenAI

Ответственное использование ИИ: правила безопасности

AGI для всех: план OpenAI по созданию ИИ на благо человечества

OpenAI Economic Research Exchange: изучаем влияние ИИ на экономику