ℹ Info
RAG (Retrieval-Augmented Generation) — это метод, при котором языковая модель сначала находит релевантные документы во внешней базе знаний, а затем генерирует ответ на их основе. Проще говоря: вместо того чтобы отвечать «по памяти», модель сначала «подсматривает в шпаргалку».

Зачем это нужно

Большие языковые модели (LLM) обучаются на огромных объёмах текста, но их знания заморожены на момент обучения. Они не знают о вчерашних событиях, не имеют доступа к вашим внутренним документам и иногда уверенно выдумывают факты — это называется «галлюцинации».

RAG решает эти проблемы. Термин ввели исследователи из Meta AI (Lewis et al.) в 2020 году в статье Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, опубликованной на NeurIPS.

RAG — это мост между тем, что модель «знает», и тем, что ей «нужно знать» прямо сейчас. Он превращает LLM из замкнутой энциклопедии в систему, умеющую работать с живыми источниками данных.

Как работает RAG

Процесс состоит из трёх этапов:

  1. Извлечение (Retrieval). Пользователь задаёт вопрос. Система преобразует его в числовой вектор (эмбеддинг) и ищет похожие фрагменты в векторной базе данных — это могут быть корпоративные документы, FAQ, база знаний.

  2. Дополнение (Augmentation). Найденные фрагменты добавляются в промпт как контекст: «Вот что мы нашли, а вот вопрос пользователя».

  3. Генерация (Generation). Языковая модель формирует ответ, опираясь на предоставленный контекст, а не только на свои обученные веса.

RAG vs файн-тюнинг

ХарактеристикаRAGФайн-тюнинг
Актуальность данныхОбновляется мгновенно — достаточно обновить базуТребует переобучения модели
Стоимость запускаНизкая — не нужно менять модельВысокая — нужны GPU и время
ПрозрачностьМожно показать источники ответаМодель не объясняет, откуда знания
Задержка ответаВыше — нужен этап поискаНиже — ответ генерируется сразу
ГаллюцинацииЗначительно меньшеМеньше в рамках домена
Лучший сценарийДинамичные, часто обновляемые данныеУстоявшийся стиль и терминология

В 2026 году в продакшене чаще всего применяют гибридный подход: файн-тюнинг задаёт модели стиль и доменную терминологию, а RAG подтягивает актуальные факты.

Примеры использования

  • Корпоративные чат-боты. Служба поддержки подключает RAG к внутренней базе знаний — бот отвечает точно по документации, а не выдумывает.
  • Юридические помощники. Система ищет релевантные статьи законов и судебные прецеденты перед формированием ответа.
  • Медицинские ассистенты. RAG подтягивает актуальные клинические рекомендации и описания препаратов.
  • Кодовые помощники. IDE-ассистенты используют RAG, чтобы учитывать контекст конкретного проекта — файлы, документацию, тесты.

Инструменты для построения RAG

Популярные фреймворки: LangChain (гибкая оркестрация пайплайнов), LlamaIndex (специализация на индексации и поиске). Для хранения эмбеддингов используют векторные базы данных: Pinecone, Weaviate, Chroma, Qdrant, pgvector (расширение PostgreSQL).


См. также: LLM (Large Language Model), Файн-тюнинг (Fine-Tuning), Температура (Temperature)