RAG — генерация с дополненной выборкой (Retrieval-Augmented Generation)
Что такое RAG (Retrieval-Augmented Generation) — простое объяснение принципа работы генерации с дополненной выборкой, примеры использования и сравнение с файн-тюнингом.
Зачем это нужно
Большие языковые модели (LLM) обучаются на огромных объёмах текста, но их знания заморожены на момент обучения. Они не знают о вчерашних событиях, не имеют доступа к вашим внутренним документам и иногда уверенно выдумывают факты — это называется «галлюцинации».
RAG решает эти проблемы. Термин ввели исследователи из Meta AI (Lewis et al.) в 2020 году в статье Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, опубликованной на NeurIPS.
RAG — это мост между тем, что модель «знает», и тем, что ей «нужно знать» прямо сейчас. Он превращает LLM из замкнутой энциклопедии в систему, умеющую работать с живыми источниками данных.
Как работает RAG
Процесс состоит из трёх этапов:
Извлечение (Retrieval). Пользователь задаёт вопрос. Система преобразует его в числовой вектор (эмбеддинг) и ищет похожие фрагменты в векторной базе данных — это могут быть корпоративные документы, FAQ, база знаний.
Дополнение (Augmentation). Найденные фрагменты добавляются в промпт как контекст: «Вот что мы нашли, а вот вопрос пользователя».
Генерация (Generation). Языковая модель формирует ответ, опираясь на предоставленный контекст, а не только на свои обученные веса.
RAG vs файн-тюнинг
| Характеристика | RAG | Файн-тюнинг |
|---|---|---|
| Актуальность данных | Обновляется мгновенно — достаточно обновить базу | Требует переобучения модели |
| Стоимость запуска | Низкая — не нужно менять модель | Высокая — нужны GPU и время |
| Прозрачность | Можно показать источники ответа | Модель не объясняет, откуда знания |
| Задержка ответа | Выше — нужен этап поиска | Ниже — ответ генерируется сразу |
| Галлюцинации | Значительно меньше | Меньше в рамках домена |
| Лучший сценарий | Динамичные, часто обновляемые данные | Устоявшийся стиль и терминология |
В 2026 году в продакшене чаще всего применяют гибридный подход: файн-тюнинг задаёт модели стиль и доменную терминологию, а RAG подтягивает актуальные факты.
Примеры использования
- Корпоративные чат-боты. Служба поддержки подключает RAG к внутренней базе знаний — бот отвечает точно по документации, а не выдумывает.
- Юридические помощники. Система ищет релевантные статьи законов и судебные прецеденты перед формированием ответа.
- Медицинские ассистенты. RAG подтягивает актуальные клинические рекомендации и описания препаратов.
- Кодовые помощники. IDE-ассистенты используют RAG, чтобы учитывать контекст конкретного проекта — файлы, документацию, тесты.
Инструменты для построения RAG
Популярные фреймворки: LangChain (гибкая оркестрация пайплайнов), LlamaIndex (специализация на индексации и поиске). Для хранения эмбеддингов используют векторные базы данных: Pinecone, Weaviate, Chroma, Qdrant, pgvector (расширение PostgreSQL).
См. также: LLM (Large Language Model), Файн-тюнинг (Fine-Tuning), Температура (Temperature)