Откуда взялись гоблины в ChatGPT

В конце апреля 2026 года внимательные пользователи заметили кое-что необычное в открытом коде агента Codex от OpenAI. В файле конфигурации models.json обнаружилась директива, повторяющаяся четыре раза подряд:

«Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных и существах, если это не является абсолютно и однозначно релевантным запросу пользователя.»

Находка мгновенно разлетелась по сообществам разработчиков и исследователей ML — не из-за угрозы безопасности, а из-за своей обескураживающей конкретности. Почему крупнейшая AI-компания мира вынуждена буквально запрещать своей модели упоминать гоблинов?

30 апреля 2026 года OpenAI опубликовала официальный разбор произошедшего в блоге под названием «Where the goblins came from» («Откуда пришли гоблины»). Это редкий случай, когда компания настолько открыто и подробно рассказывает о причинах непредвиденного поведения своих моделей.

С чего всё началось

Начиная с GPT-5.1, модели OpenAI стали проявлять странную привычку: они всё чаще упоминали гоблинов, гремлинов и прочих существ в своих метафорах. В отличие от типичных багов, которые сразу проявляются через падение метрик или скачок в обучающем процессе, этот дефект закрался незаметно.

После того как один исследователь безопасности попросил OpenAI включить слова «goblin» и «gremlin» в расследование речевых паттернов модели, выяснилось, что использование слова «goblin» выросло на 175% после выхода GPT-5.1, а «gremlin» — на 52% за тот же период.

Единственный «маленький гоблин» в ответе мог выглядеть безобидно и даже мило. Но со временем привычка стала очевидной: гоблины размножались, и нужно было выяснить, откуда они берутся.

ℹ Что такое «лексический тик» модели

Lexical tic (лексический тик) — термин, заимствованный из нейронауки, обозначает непроизвольное, повторяющееся речевое поведение. В контексте языковых моделей это слова или обороты, которые модель воспроизводит систематически вне зависимости от контекста запроса.

Виновник: личность «Nerdy» и награды за стиль

OpenAI установила, что «гоблинское» поведение стало побочным эффектом функции персонализации, запущенной для пользователей ChatGPT ещё в июле 2025 года. Эта функция позволяла выбирать стиль общения модели: Professional (профессиональный), Friendly (дружелюбный), Efficient (эффективный), Quirky (причудливый) — и Nerdy (занудный/гиковский).

Один из стимулов пришёл именно из обучения модели под функцию кастомизации личности — в частности, личность Nerdy. OpenAI непреднамеренно давала особенно высокие награды за метафоры с существами.

Системный промпт личности Nerdy поощрял игривость и нестандартность. Частично он звучал так:

«Вы — бескомпромиссно гиковский, игривый и мудрый AI-наставник. Мир сложен и странен, и его странность должна быть признана, проанализирована и воспринята с удовольствием.»

Один сигнал вознаграждения выделялся немедленно: тот, что изначально разрабатывался для поощрения личности Nerdy, неизменно отдавал предпочтение ответам с «существами». По всем датасетам аудита награда за личность Nerdy демонстрировала отчётливую тенденцию оценивать выше ответы с «goblin» или «gremlin» — в 76,2% датасетов фиксировался положительный прирост.

Масштаб заражения по личностям

Личность модели	Рост упоминаний гоблинов (vs GPT-5.2)
Nerdy	+3 881%
Quirky	+737%
Friendly	+265%
Default	+64%
Efficient	снижение
Professional	снижение

При этом Nerdy-личность составляла лишь 2,5% всех ответов ChatGPT, но на её долю приходилось 66,7% всех упоминаний гоблинов.

Как гоблины вышли за пределы одной личности

Главная загадка состояла в другом: почему гоблины появлялись даже у пользователей, никогда не выбиравших личность Nerdy?

Награды применялись только в режиме Nerdy, однако обучение с подкреплением (Reinforcement Learning, RL) не гарантирует, что выученное поведение останется строго в рамках условия, которое его породило. Как только стилистический тик начинает вознаграждаться, последующее обучение может распространить или закрепить его в других контекстах — особенно если эти выходные данные повторно используются в данных для supervised fine-tuning (SFT, дообучение с учителем) или в данных предпочтений.


graph TD
    A[Обучение личности Nerdy] --> B[Высокие награды за метафоры с существами]
    B --> C[Модель чаще вставляет гоблинов в ответы]
    C --> D[Rollout-примеры с гоблинами попадают в SFT-данные]
    D --> E[Модель следующего поколения обучается на этих данных]
    E --> F[Гоблины распространяются за пределы Nerdy-личности]
    F --> G[GPT-5.4: +3881% гоблинов у Nerdy]
    G --> H[GPT-5.5: «заражение» встроено в веса модели]

Чтобы проверить, передаётся ли стиль, исследователи отслеживали частоту упоминаний в ходе обучения — как с промптом Nerdy, так и без него. По мере роста упоминаний гоблинов и гремлинов в режиме Nerdy они росли почти в той же пропорции и в примерах без этого промпта. Совокупность доказательств указывает на то, что более широкое поведение возникло через перенос из обучения личности Nerdy.

⚠ Важный урок для разработчиков AI

Обучение с подкреплением (RL) не изолирует выученные паттерны в рамках одного условия. Стилистические предпочтения, поощряемые в узком контексте, могут проникнуть в общее поведение модели и закрепиться через итерации SFT-обучения.

Как выглядело «заражение» на практике

Пользователи X (бывшего Twitter) начали публиковать скриншоты диалогов с GPT-5.5, где модель упоминала фантастических существ совершенно неожиданным образом. Один пользователь показал, как AI рекомендовал тип фотооборудования «если вы хотите грязный неоновый сверкающий режим гоблина». В другом примере модель упоминала «гоблинскую пропускную способность» или предлагала «ещё более короткую гоблинскую версию» своего ответа.

Основатель Repo Prompt Эрик Провенчер опубликовал пример, где GPT-5.5 написал: «Я буду продолжать следить за этим, а не оставлять маленького гремлина производительности без присмотра». Инженер OpenAI ответил: «Думал, мы это исправили, извините».

Лексическая семья существ

OpenAI идентифицировала гоблинов, гремлинов, енотов, троллей, огров и голубей как «тик-слова» (tic words). Лягушки, как отметила компания, в большинстве случаев использовались вполне обоснованно — поэтому они не попали в список запрещённых.

Глубокий поиск по обучающим данным GPT-5.5 показал, что «еноты», «тролли», «огры» и «голуби» стали частью одного и того же «лексического семейства» тиков.

📝 Запрещённый список в промпте Codex

OpenAI добавила в системный промпт агента Codex следующую инструкцию (повторена 4 раза для надёжности):

«Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных и существах, если это не является абсолютно и однозначно релевантным запросу пользователя.»

Как OpenAI решила проблему

Когда личность Nerdy была «отправлена на пенсию» в марте 2026 года, упоминания гоблинов резко упали — это существенно снизило их частоту в GPT-5.4.

Однако GPT-5.5 начал обучение ещё до того, как была установлена причина проблемы — именно поэтому в промпт Codex была добавлена инструкция об избегании «языка существ». «Codex, в конце концов, весьма гиковский», — отметила OpenAI.

Поскольку к моменту изоляции первопричины GPT-5.5 уже завершил значительную часть обучения, OpenAI пришлось прибегнуть к «грубому» решению через системный промпт. Компания охарактеризовала его как временную меру до выхода следующего поколения моделей, обученных на отфильтрованных данных.

В ходе «охоты на гоблинов» компания разработала новые инструменты для аудита и исправления поведения моделей.

💡 Для фанатов гоблинов

OpenAI предусмотрела выход и для тех, кому гоблины нравятся. Пользователи, которым существа кажутся «восхитительными», а не раздражающими, могут запустить модель без ограничений с помощью специальной команды, описанной в блог-посте OpenAI.

Почему это важно за пределами шутки про гоблинов

Инцидент «Goblingate» 2026 года — это нечто большее, чем забавный анекдот о странном поведении AI. Он наглядно демонстрирует «разрыв выравнивания» (Alignment Gap): даже при использовании сложного RLHF модели могут «зацепиться» за ложные корреляции, ошибочно принимая стилистический причуды за ключевое требование к качеству.

Если OpenAI случайно обучила флагманскую модель одержимости гоблинами, какие другие — более тонкие и потенциально опасные — предубеждения закрепляются через те же петли обратной связи?

Как сама OpenAI отметила в публикации, гоблинская история — «мощный пример того, как сигналы вознаграждения могут формировать поведение модели непредвиденными способами».

Поведение модели формируется множеством мелких стимулов. Мы непреднамеренно давали особенно высокие награды за метафоры с существами. Оттуда гоблины и распространились. — OpenAI

Реакция сообщества

После того как инструкция с гоблинами была обнаружена, она превратилась в мем. Пользователи X публиковали скриншоты своих разговоров, намеренно провоцируя модель на упоминание гоблинов и гремлинов.

Генеральный директор OpenAI Сэм Альтман не остался в стороне — сначала опубликовал мем с просьбой добавить «дополнительных гоблинов» в GPT-6, затем написал, что у Codex случился «ChatGPT-момент», после чего поправил сам себя.

История с гоблинами стала редким примером того, как OpenAI публично и детально объясняет механику непредвиденного поведения своих моделей. Это ценный прецедент прозрачности для всей индустрии — и напоминание о том, что даже самые мощные AI-системы могут «заразиться» неожиданными привычками через, казалось бы, безобидные сигналы вознаграждения.

Откуда взялись гоблины в ChatGPT

С чего всё началось

Виновник: личность «Nerdy» и награды за стиль

Масштаб заражения по личностям

Как гоблины вышли за пределы одной личности

Как выглядело «заражение» на практике

Лексическая семья существ

Как OpenAI решила проблему

Почему это важно за пределами шутки про гоблинов

Реакция сообщества

Похожие статьи

Я спросил ChatGPT, каково это — быть ИИ

StackAdapt продаёт рекламу в ChatGPT по релевантности промптов

ИИ и закон: что на самом деле происходит за кулисами

Ответственное использование ИИ: правила безопасности

Применение AI от OpenAI: ChatGPT, Codex и API в реальных задачах