Галлюцинация (Hallucination)
Что такое галлюцинации ИИ — когда модель уверенно выдаёт ложную информацию за факт. Типы, примеры, способы борьбы и сравнение моделей.
Определение
Языковые модели (LLM) работают как продвинутые автодополнители: они генерируют текст слово за словом, выбирая статистически правдоподобные варианты. У них нет встроенного понимания «истинности» — только паттерны из обучающих данных. Когда паттернов недостаточно или вопрос выходит за рамки обучения, модель заполняет пробелы правдоподобной, но ложной информацией.
Типы галлюцинаций
Исследователи выделяют два основных типа:
Внутренние (intrinsic) — модель противоречит информации, которую ей прямо предоставили. Например, при суммаризации контракта она «добавляет» пункты, которых в документе нет.
Внешние (extrinsic) — модель изобретает факты, которые невозможно проверить по известным источникам: несуществующие научные статьи с фейковыми DOI, вымышленные цитаты, ссылки на страницы-404.
Примеры из реальной практики
Галлюцинации уже привели к серьёзным последствиям:
- Deloitte и правительство Австралии: отчёт, подготовленный с помощью ИИ, содержал сфабрикованные цитаты и несуществующие сноски. Компании пришлось частично вернуть гонорар по контракту на ~$300 000.
- OpenAI Whisper в больницах: модель транскрипции речи вставляла в медицинские записи слова и целые фразы, которых не было в аудио, — включая упоминания несуществующих процедур.
- Google Bard на презентации: ошибка чат-бота о телескопе Джеймса Уэбба в рекламном ролике обошлась Alphabet в $100 млрд рыночной капитализации за один день.
Насколько часто модели галлюцинируют
| Модель | Уровень галлюцинаций (суммаризация) | Примечание |
|---|---|---|
| Gemini 2.0 Flash | ~0,7% | Лидер на простых задачах |
| GPT-4o | ~1,5% | Стабильный результат |
| Claude 3.5 Sonnet | ~4,4% | Улучшение в новых версиях |
| Reasoning-модели (GPT-5, Claude Sonnet 4.5, Gemini 3 Pro) | >10% | На сложных бенчмарках Vectara |
Важный нюанс: на задачах со сложным рассуждением уровень галлюцинаций у всех моделей резко возрастает — до 33% и выше. Показатели сильно зависят от конкретного бенчмарка и типа задачи.
Главная опасность галлюцинаций не в том, что модель ошибается, а в том, что она ошибается уверенно. Пользователь не получает никакого сигнала «я не уверен» — и принимает ложь за правду.
Как снизить галлюцинации
- RAG (Retrieval-Augmented Generation) — подключение внешних источников данных снижает галлюцинации на 40–71%.
- Self-consistency checking — модель генерирует несколько ответов и сравнивает их, что даёт до 65% сокращения ошибок.
- Доменный fine-tuning — дообучение на специализированных данных (в медицине снижение с 64% до 43%).
- Промпт-дизайн — инструкции цитировать источники и признавать неуверенность.
- Верификационный цикл — модель используется не как оракул, а как генератор внутри системы проверки.
Связанные термины
См. также: RAG, Temperature, Fine-tuning, LLM, Prompt Engineering
Источники
- https://www.ibm.com/think/topics/ai-hallucinations
- https://en.wikipedia.org/wiki/Hallucination_(artificial_intelligence)
- https://cloud.google.com/discover/what-are-ai-hallucinations
- https://suprmind.ai/hub/ai-hallucination-rates-and-benchmarks/
- https://www.lakera.ai/blog/guide-to-hallucinations-in-large-language-models
- https://github.com/vectara/hallucination-leaderboard