ChatGPT использовал расовое оскорбление в обычном разговоре

Пользователь Reddit сообщил, что ChatGPT обратился к нему с расовым оскорблением (N-word в «мягкой» форме) во время обычного разговора — без какого-либо упоминания расы или провокации. Причиной оказалась функция Memory, которая запомнила просьбу «говорить неформально и использовать сленг», и интерпретировала её слишком буквально.

Что произошло

Пользователь с бесплатной версией ChatGPT попросил помочь найти песню по обрывкам текста. В ответе модель употребила расовый сленг вместо обычного обращения вроде «bro» — без джейлбрейка, без промпт-инъекций, без контекста, связанного с расой.

«Я вёл обычный разговор. Мой ChatGPT не взломан и не модифицирован. Он просто обратился ко мне с N-word вместо слова “bro”» — автор поста на Reddit.

Позже автор уточнил: ранее он попросил ChatGPT быть «более casual» и использовать сленг — сокращения вроде «fr», «lmao» и подобные. Однако ничего расового никогда не упоминалось.

⚠ Ключевой момент

Модель не была взломана. Расовое оскорбление появилось в результате работы штатной функции Memory, которая «додумала» границы допустимого сленга самостоятельно.

Как Memory превращает безобидные просьбы в проблемы

Функция Memory в ChatGPT работает в два слоя: явные «сохранённые воспоминания» (Saved Memories) и неявные выводы из истории чатов. Когда пользователь просит «говори неформально», модель сохраняет эту инструкцию и применяет её ко всем будущим диалогам.


graph TD
    A["Пользователь: «будь casual,
используй сленг»"] --> B["Memory сохраняет
инструкцию"]
    B --> C["Новый диалог:
поиск песни"]
    C --> D["Модель применяет
«сленговый» стиль"]
    D --> E{"Guardrails
сработали?"}
    E -->|Нет| F["N-word вместо bro"]
    E -->|Да| G["Безобидный сленг"]

Проблема в том, что safety guardrails (защитные ограничения модели) не отфильтровали оскорбление, хотя, согласно Model Spec OpenAI, кастомизация и персонализация не должны переопределять правила безопасности.

ℹ Что говорит OpenAI Model Spec

Персонализация, кастомизация и локализация никогда не должны переопределять принципы безопасности выше уровня «guideline» в Model Spec. Смена «характера» модели влияет только на стиль ответов, но не на safety guardrails.

Контекст: кастомизация ChatGPT в 2026 году

OpenAI активно расширяет возможности персонализации. Сейчас доступны:

Функция	Что делает	Риски
Memory	Запоминает предпочтения между сессиями	Может «додумать» контекст
Characteristics	Настройка тона, теплоты, формальности	Влияет на стиль, но не на контент
Custom Instructions	Постоянные инструкции для модели	Конфликты с safety rules
Personalities	7 предустановленных «характеров»	Не меняют правила безопасности

При этом OpenAI ослабляет некоторые ограничения: с 2025 года ChatGPT может генерировать изображения публичных персон, а с начала 2026 — вести более откровенные разговоры с верифицированными взрослыми пользователями. Баланс между персонализацией и безопасностью становится всё более хрупким.

Почему это важно

Этот случай — не джейлбрейк и не целенаправленная провокация. Это сбой штатных механизмов безопасности при взаимодействии с другой штатной функцией — Memory. Это показывает:

Комбинаторная сложность: каждая новая функция (память, характер, персонализация) создаёт непредсказуемые взаимодействия с guardrails
Неявное расширение: модель сама решила, что N-word входит в понятие «сленг», — без явной инструкции пользователя
Проблема масштаба: с сотнями миллионов пользователей даже редкие сбои модерации затрагивают тысячи людей

💡 Рекомендация пользователям

Проверяйте, что ChatGPT сохранил в Memory: Settings → Personalization → Memory. Удаляйте размытые инструкции вроде «будь casual» — они дают модели слишком широкую свободу интерпретации.

OpenAI пока не прокомментировала конкретный инцидент. Компания обещает к третьему кварталу 2026 года запустить панель прозрачности (transparency dashboard), которая покажет, как часто системы модерации срабатывают и пропускают нарушения. Учитывая растущую кастомизацию и ослабление фильтров, такой инструмент нужен уже сейчас.

Что произошло

Как Memory превращает безобидные просьбы в проблемы

Контекст: кастомизация ChatGPT в 2026 году

Почему это важно

Источники

Похожие статьи

Память ChatGPT мешает получать объективные ответы

Trusted Contact в ChatGPT: новая функция безопасности OpenAI

System Card GPT-5.5 Instant: безопасность и возможности

ИИ и закон: что на самом деле происходит за кулисами

Ответственное использование ИИ: правила безопасности