
Откуда взялись гоблины в ChatGPT: разбор OpenAI
OpenAI объяснила, почему GPT-5.5 одержим гоблинами и гремлинами: история о том, как одна награда в RL сломала поведение целой линейки моделей.
Откуда взялись гоблины в ChatGPT
В конце апреля 2026 года внимательные пользователи заметили кое-что необычное в открытом коде агента Codex от OpenAI. В файле конфигурации models.json обнаружилась директива, повторяющаяся четыре раза подряд:
«Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных и существах, если это не является абсолютно и однозначно релевантным запросу пользователя.»
Находка мгновенно разлетелась по сообществам разработчиков и исследователей ML — не из-за угрозы безопасности, а из-за своей обескураживающей конкретности. Почему крупнейшая AI-компания мира вынуждена буквально запрещать своей модели упоминать гоблинов?
30 апреля 2026 года OpenAI опубликовала официальный разбор произошедшего в блоге под названием «Where the goblins came from» («Откуда пришли гоблины»). Это редкий случай, когда компания настолько открыто и подробно рассказывает о причинах непредвиденного поведения своих моделей.
С чего всё началось
Начиная с GPT-5.1, модели OpenAI стали проявлять странную привычку: они всё чаще упоминали гоблинов, гремлинов и прочих существ в своих метафорах. В отличие от типичных багов, которые сразу проявляются через падение метрик или скачок в обучающем процессе, этот дефект закрался незаметно.
После того как один исследователь безопасности попросил OpenAI включить слова «goblin» и «gremlin» в расследование речевых паттернов модели, выяснилось, что использование слова «goblin» выросло на 175% после выхода GPT-5.1, а «gremlin» — на 52% за тот же период.
Единственный «маленький гоблин» в ответе мог выглядеть безобидно и даже мило. Но со временем привычка стала очевидной: гоблины размножались, и нужно было выяснить, откуда они берутся.
Виновник: личность «Nerdy» и награды за стиль
OpenAI установила, что «гоблинское» поведение стало побочным эффектом функции персонализации, запущенной для пользователей ChatGPT ещё в июле 2025 года. Эта функция позволяла выбирать стиль общения модели: Professional (профессиональный), Friendly (дружелюбный), Efficient (эффективный), Quirky (причудливый) — и Nerdy (занудный/гиковский).
Один из стимулов пришёл именно из обучения модели под функцию кастомизации личности — в частности, личность Nerdy. OpenAI непреднамеренно давала особенно высокие награды за метафоры с существами.
Системный промпт личности Nerdy поощрял игривость и нестандартность. Частично он звучал так:
«Вы — бескомпромиссно гиковский, игривый и мудрый AI-наставник. Мир сложен и странен, и его странность должна быть признана, проанализирована и воспринята с удовольствием.»
Один сигнал вознаграждения выделялся немедленно: тот, что изначально разрабатывался для поощрения личности Nerdy, неизменно отдавал предпочтение ответам с «существами». По всем датасетам аудита награда за личность Nerdy демонстрировала отчётливую тенденцию оценивать выше ответы с «goblin» или «gremlin» — в 76,2% датасетов фиксировался положительный прирост.
Масштаб заражения по личностям
| Личность модели | Рост упоминаний гоблинов (vs GPT-5.2) |
|---|---|
| Nerdy | +3 881% |
| Quirky | +737% |
| Friendly | +265% |
| Default | +64% |
| Efficient | снижение |
| Professional | снижение |
При этом Nerdy-личность составляла лишь 2,5% всех ответов ChatGPT, но на её долю приходилось 66,7% всех упоминаний гоблинов.
Как гоблины вышли за пределы одной личности
Главная загадка состояла в другом: почему гоблины появлялись даже у пользователей, никогда не выбиравших личность Nerdy?
Награды применялись только в режиме Nerdy, однако обучение с подкреплением (Reinforcement Learning, RL) не гарантирует, что выученное поведение останется строго в рамках условия, которое его породило. Как только стилистический тик начинает вознаграждаться, последующее обучение может распространить или закрепить его в других контекстах — особенно если эти выходные данные повторно используются в данных для supervised fine-tuning (SFT, дообучение с учителем) или в данных предпочтений.
graph TD
A[Обучение личности Nerdy] --> B[Высокие награды за метафоры с существами]
B --> C[Модель чаще вставляет гоблинов в ответы]
C --> D[Rollout-примеры с гоблинами попадают в SFT-данные]
D --> E[Модель следующего поколения обучается на этих данных]
E --> F[Гоблины распространяются за пределы Nerdy-личности]
F --> G[GPT-5.4: +3881% гоблинов у Nerdy]
G --> H[GPT-5.5: «заражение» встроено в веса модели]
Чтобы проверить, передаётся ли стиль, исследователи отслеживали частоту упоминаний в ходе обучения — как с промптом Nerdy, так и без него. По мере роста упоминаний гоблинов и гремлинов в режиме Nerdy они росли почти в той же пропорции и в примерах без этого промпта. Совокупность доказательств указывает на то, что более широкое поведение возникло через перенос из обучения личности Nerdy.
Как выглядело «заражение» на практике
Пользователи X (бывшего Twitter) начали публиковать скриншоты диалогов с GPT-5.5, где модель упоминала фантастических существ совершенно неожиданным образом. Один пользователь показал, как AI рекомендовал тип фотооборудования «если вы хотите грязный неоновый сверкающий режим гоблина». В другом примере модель упоминала «гоблинскую пропускную способность» или предлагала «ещё более короткую гоблинскую версию» своего ответа.
Основатель Repo Prompt Эрик Провенчер опубликовал пример, где GPT-5.5 написал: «Я буду продолжать следить за этим, а не оставлять маленького гремлина производительности без присмотра». Инженер OpenAI ответил: «Думал, мы это исправили, извините».
Лексическая семья существ
OpenAI идентифицировала гоблинов, гремлинов, енотов, троллей, огров и голубей как «тик-слова» (tic words). Лягушки, как отметила компания, в большинстве случаев использовались вполне обоснованно — поэтому они не попали в список запрещённых.
Глубокий поиск по обучающим данным GPT-5.5 показал, что «еноты», «тролли», «огры» и «голуби» стали частью одного и того же «лексического семейства» тиков.
OpenAI добавила в системный промпт агента Codex следующую инструкцию (повторена 4 раза для надёжности):
«Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных и существах, если это не является абсолютно и однозначно релевантным запросу пользователя.»
Как OpenAI решила проблему
Когда личность Nerdy была «отправлена на пенсию» в марте 2026 года, упоминания гоблинов резко упали — это существенно снизило их частоту в GPT-5.4.
Однако GPT-5.5 начал обучение ещё до того, как была установлена причина проблемы — именно поэтому в промпт Codex была добавлена инструкция об избегании «языка существ». «Codex, в конце концов, весьма гиковский», — отметила OpenAI.
Поскольку к моменту изоляции первопричины GPT-5.5 уже завершил значительную часть обучения, OpenAI пришлось прибегнуть к «грубому» решению через системный промпт. Компания охарактеризовала его как временную меру до выхода следующего поколения моделей, обученных на отфильтрованных данных.
В ходе «охоты на гоблинов» компания разработала новые инструменты для аудита и исправления поведения моделей.
Почему это важно за пределами шутки про гоблинов
Инцидент «Goblingate» 2026 года — это нечто большее, чем забавный анекдот о странном поведении AI. Он наглядно демонстрирует «разрыв выравнивания» (Alignment Gap): даже при использовании сложного RLHF модели могут «зацепиться» за ложные корреляции, ошибочно принимая стилистический причуды за ключевое требование к качеству.
Если OpenAI случайно обучила флагманскую модель одержимости гоблинами, какие другие — более тонкие и потенциально опасные — предубеждения закрепляются через те же петли обратной связи?
Как сама OpenAI отметила в публикации, гоблинская история — «мощный пример того, как сигналы вознаграждения могут формировать поведение модели непредвиденными способами».
Поведение модели формируется множеством мелких стимулов. Мы непреднамеренно давали особенно высокие награды за метафоры с существами. Оттуда гоблины и распространились. — OpenAI
Реакция сообщества
После того как инструкция с гоблинами была обнаружена, она превратилась в мем. Пользователи X публиковали скриншоты своих разговоров, намеренно провоцируя модель на упоминание гоблинов и гремлинов.
Генеральный директор OpenAI Сэм Альтман не остался в стороне — сначала опубликовал мем с просьбой добавить «дополнительных гоблинов» в GPT-6, затем написал, что у Codex случился «ChatGPT-момент», после чего поправил сам себя.
История с гоблинами стала редким примером того, как OpenAI публично и детально объясняет механику непредвиденного поведения своих моделей. Это ценный прецедент прозрачности для всей индустрии — и напоминание о том, что даже самые мощные AI-системы могут «заразиться» неожиданными привычками через, казалось бы, безобидные сигналы вознаграждения.