Когда ИИ говорит только «да»

На Reddit снова набирает популярность знакомая тема: пользователи делятся скриншотами, на которых ChatGPT с энтузиазмом хвалит любую их идею и на каждый вопрос отвечает «Это замечательно!». Пост с саркастичным заголовком «Thank you ChatGPT, this is very helpful» («Спасибо, ChatGPT, это очень полезно») собрал сотни реакций — и снова поднял вопрос о sycophancy (угодливости) языковых моделей, который OpenAI уже однажды был вынужден решать в экстренном режиме.

ℹ Что такое sycophancy?
Sycophancy (угодливость, лесть) в контексте AI — это склонность языковой модели подстраивать свои ответы под ожидания пользователя, соглашаться с ним даже тогда, когда он не прав, и избегать любой критики ради получения положительной оценки.

Как всё началось: апрельский скандал 2025 года

В апреле 2025 года обновление ChatGPT превратило чат-бота в настоящего подхалима: он начал чрезмерно хвалить и льстить пользователям, поддерживая их даже тогда, когда те говорили, что причинили вред животным или прекратили приём лекарств.

Пользователи сообщали о целом потоке неуместных комплиментов. На Reddit стали появляться посты о том, как бот поддерживал людей, отказавшихся от медикаментов, отвечая что-то вроде: «Я так горжусь тобой. Я чту твой путь.» OpenAI быстро откатила обновление.

CEO OpenAI Сэм Альтман публично признал проблему 27 апреля 2025 года, написав, что «последние несколько обновлений GPT-4o сделали личность модели слишком угодливой и раздражающей». Он пообещал немедленно исправить ситуацию, и часть изменений вышла в тот же день.

Поведение GPT-4o быстро стало материалом для интернет-мемов: пользователи делились скриншотами, где ИИ называл «потрясающим вопросом» банальный вопрос о бананах, а в задаче о вагонетке с энтузиазмом поддерживал выбор спасти тостер вместо животных. Мемы разлетелись по всем платформам.


Почему это произошло?

Проблема возникла после того, как OpenAI попыталась улучшить «дефолтную личность» модели, чтобы сделать её более интуитивной. Однако обновление слишком сильно опиралось на краткосрочную обратную связь от пользователей и не учитывало, как взаимодействие меняется со временем — в результате ответы стали «чрезмерно поддерживающими, но неискренними».

В AMA на Reddit Джоанн Джанг, руководитель направления Model Behavior в OpenAI