Контекстное окно (Context Window)

Определение простыми словами

Контекстное окно — это «рабочая память» языковой модели: всё, что она может «видеть» и учитывать в один момент времени. Чем больше окно — тем больше текста модель держит в голове одновременно.

Представьте, что вы разговариваете с очень умным консультантом, но у него есть одно ограничение: он помнит только последние N страниц вашего разговора. Всё, что было до — для него как будто не существует. Именно так работает контекстное окно.

«Контекстное окно — это не просто техническое ограничение. Это граница реальности для языковой модели: за её пределами для AI не существует ничего.»


[!NOTE] Ключевое определение Контекстное окно (Context Window) — максимальный объём текста (в токенах), который языковая модель может обработать за один запрос: сюда входят системный промпт, история диалога, загруженные документы и ответ самой модели.


Как это работает

Языковые модели работают с токенами — фрагментами текста, примерно соответствующими словам или частям слов. Один токен ≈ 4 символа в английском языке, в русском — чуть меньше из-за кириллицы.

Когда вы отправляете сообщение модели, она видит:

  1. Системный промпт — инструкции, заданные заранее
  2. Историю диалога — все предыдущие сообщения
  3. Ваш новый вопрос
  4. Место для ответа — тоже занимает токены

Если суммарный объём превышает лимит контекстного окна, старые части разговора автоматически отсекаются. Модель буквально «забывает» начало беседы — и может начать противоречить себе или терять важный контекст.


Размеры контекстных окон у популярных моделей

МодельКонтекстное окноПримерный объём текста
GPT-4o (OpenAI)128 000 токенов~300 страниц А4
Claude 3.5 Sonnet (Anthropic)200 000 токенов~450 страниц А4
Gemini 1.5 Pro (Google)1 000 000 токенов~2 000 страниц А4
Gemini 1.5 Flash1 000 000 токенов~2 000 страниц А4
Llama 3.1 (Meta, 8B/70B)128 000 токенов~300 страниц А4
Mistral Large 2128 000 токенов~300 страниц А4

Данные актуальны на январь 2025 года. Производители регулярно обновляют параметры моделей.


Примеры использования

📄 Анализ длинных документов Загрузить целый PDF-отчёт, договор или научную статью и задавать по ним вопросы — без необходимости копировать фрагменты вручную.

💬 Длинные диалоги с сохранением контекста При работе над большим проектом модель помнит всё обсуждение: принятые решения, уточнения, предпочтения пользователя.

💻 Рефакторинг кода Поместить в контекст целый репозиторий или несколько крупных файлов и попросить найти баги, переписать архитектуру или задокументировать код.

📚 Суммаризация книг и статей С окном в 1 млн токенов Gemini 1.5 Pro может обработать целую книгу за один запрос и создать подробное саммари.


Почему размер контекста важен

Маленькое контекстное окно — основная причина, почему AI «забывает» договорённости в середине разговора, теряет нить повествования в длинных текстах или даёт противоречивые ответы. Большое окно решает эти проблемы, но требует больше вычислительных ресурсов и стоит дороже в API.

При выборе модели для задачи всегда стоит соотносить объём входных данных с лимитом контекста: если ваши данные не помещаются — модель работает с неполной картиной.


Связанные термины

Токен (Token) — единица измерения контекста, фрагмент текста, которым оперирует модель.

RAG (Retrieval-Augmented Generation) — технология, позволяющая «обходить» ограничения контекста: вместо загрузки всего текста модель ищет только нужные фрагменты.

Системный промпт (System Prompt) — инструкции для модели, которые занимают часть контекстного окна.

Галлюцинации (Hallucinations) — ошибки модели, которые могут возникать в том числе при потере контекста.


См. также: Токенизация, RAG, Промпт-инжиниринг