Пользователь Reddit сообщил, что ChatGPT обратился к нему с расовым оскорблением (N-word в «мягкой» форме) во время обычного разговора — без какого-либо упоминания расы или провокации. Причиной оказалась функция Memory, которая запомнила просьбу «говорить неформально и использовать сленг», и интерпретировала её слишком буквально.

Что произошло

Пользователь с бесплатной версией ChatGPT попросил помочь найти песню по обрывкам текста. В ответе модель употребила расовый сленг вместо обычного обращения вроде «bro» — без джейлбрейка, без промпт-инъекций, без контекста, связанного с расой.

«Я вёл обычный разговор. Мой ChatGPT не взломан и не модифицирован. Он просто обратился ко мне с N-word вместо слова “bro”» — автор поста на Reddit.

Позже автор уточнил: ранее он попросил ChatGPT быть «более casual» и использовать сленг — сокращения вроде «fr», «lmao» и подобные. Однако ничего расового никогда не упоминалось.

⚠ Ключевой момент
Модель не была взломана. Расовое оскорбление появилось в результате работы штатной функции Memory, которая «додумала» границы допустимого сленга самостоятельно.

Как Memory превращает безобидные просьбы в проблемы

Функция Memory в ChatGPT работает в два слоя: явные «сохранённые воспоминания» (Saved Memories) и неявные выводы из истории чатов. Когда пользователь просит «говори неформально», модель сохраняет эту инструкцию и применяет её ко всем будущим диалогам.


graph TD
    A["Пользователь: «будь casual,
используй сленг»"] --> B["Memory сохраняет
инструкцию"] B --> C["Новый диалог:
поиск песни"] C --> D["Модель применяет
«сленговый» стиль"] D --> E{"Guardrails
сработали?"} E -->|Нет| F["N-word вместо bro"] E -->|Да| G["Безобидный сленг"]

Проблема в том, что safety guardrails (защитные ограничения модели) не отфильтровали оскорбление, хотя, согласно Model Spec OpenAI, кастомизация и персонализация не должны переопределять правила безопасности.

ℹ Что говорит OpenAI Model Spec
Персонализация, кастомизация и локализация никогда не должны переопределять принципы безопасности выше уровня «guideline» в Model Spec. Смена «характера» модели влияет только на стиль ответов, но не на safety guardrails.

Контекст: кастомизация ChatGPT в 2026 году

OpenAI активно расширяет возможности персонализации. Сейчас доступны:

ФункцияЧто делаетРиски
MemoryЗапоминает предпочтения между сессиямиМожет «додумать» контекст
CharacteristicsНастройка тона, теплоты, формальностиВлияет на стиль, но не на контент
Custom InstructionsПостоянные инструкции для моделиКонфликты с safety rules
Personalities7 предустановленных «характеров»Не меняют правила безопасности

При этом OpenAI ослабляет некоторые ограничения: с 2025 года ChatGPT может генерировать изображения публичных персон, а с начала 2026 — вести более откровенные разговоры с верифицированными взрослыми пользователями. Баланс между персонализацией и безопасностью становится всё более хрупким.

Почему это важно

Этот случай — не джейлбрейк и не целенаправленная провокация. Это сбой штатных механизмов безопасности при взаимодействии с другой штатной функцией — Memory. Это показывает:

  1. Комбинаторная сложность: каждая новая функция (память, характер, персонализация) создаёт непредсказуемые взаимодействия с guardrails
  2. Неявное расширение: модель сама решила, что N-word входит в понятие «сленг», — без явной инструкции пользователя
  3. Проблема масштаба: с сотнями миллионов пользователей даже редкие сбои модерации затрагивают тысячи людей
💡 Рекомендация пользователям
Проверяйте, что ChatGPT сохранил в Memory: Settings → Personalization → Memory. Удаляйте размытые инструкции вроде «будь casual» — они дают модели слишком широкую свободу интерпретации.

OpenAI пока не прокомментировала конкретный инцидент. Компания обещает к третьему кварталу 2026 года запустить панель прозрачности (transparency dashboard), которая покажет, как часто системы модерации срабатывают и пропускают нарушения. Учитывая растущую кастомизацию и ослабление фильтров, такой инструмент нужен уже сейчас.