Контекстное окно (Context Window)

Определение простыми словами

Контекстное окно — это «рабочая память» языковой модели: всё, что она может «видеть» и учитывать в один момент времени. Чем больше окно — тем больше текста модель держит в голове одновременно.

Представьте, что вы разговариваете с очень умным консультантом, но у него есть одно ограничение: он помнит только последние N страниц вашего разговора. Всё, что было до — для него как будто не существует. Именно так работает контекстное окно.

«Контекстное окно — это не просто техническое ограничение. Это граница реальности для языковой модели: за её пределами для AI не существует ничего.»

[!NOTE] Ключевое определение Контекстное окно (Context Window) — максимальный объём текста (в токенах), который языковая модель может обработать за один запрос: сюда входят системный промпт, история диалога, загруженные документы и ответ самой модели.

Как это работает

Языковые модели работают с токенами — фрагментами текста, примерно соответствующими словам или частям слов. Один токен ≈ 4 символа в английском языке, в русском — чуть меньше из-за кириллицы.

Когда вы отправляете сообщение модели, она видит:

Системный промпт — инструкции, заданные заранее
Историю диалога — все предыдущие сообщения
Ваш новый вопрос
Место для ответа — тоже занимает токены

Если суммарный объём превышает лимит контекстного окна, старые части разговора автоматически отсекаются. Модель буквально «забывает» начало беседы — и может начать противоречить себе или терять важный контекст.

Размеры контекстных окон у популярных моделей

Модель	Контекстное окно	Примерный объём текста
GPT-4o (OpenAI)	128 000 токенов	~300 страниц А4
Claude 3.5 Sonnet (Anthropic)	200 000 токенов	~450 страниц А4
Gemini 1.5 Pro (Google)	1 000 000 токенов	~2 000 страниц А4
Gemini 1.5 Flash	1 000 000 токенов	~2 000 страниц А4
Llama 3.1 (Meta, 8B/70B)	128 000 токенов	~300 страниц А4
Mistral Large 2	128 000 токенов	~300 страниц А4

Данные актуальны на январь 2025 года. Производители регулярно обновляют параметры моделей.

Примеры использования

📄 Анализ длинных документов Загрузить целый PDF-отчёт, договор или научную статью и задавать по ним вопросы — без необходимости копировать фрагменты вручную.

💬 Длинные диалоги с сохранением контекста При работе над большим проектом модель помнит всё обсуждение: принятые решения, уточнения, предпочтения пользователя.

💻 Рефакторинг кода Поместить в контекст целый репозиторий или несколько крупных файлов и попросить найти баги, переписать архитектуру или задокументировать код.

📚 Суммаризация книг и статей С окном в 1 млн токенов Gemini 1.5 Pro может обработать целую книгу за один запрос и создать подробное саммари.

Почему размер контекста важен

Маленькое контекстное окно — основная причина, почему AI «забывает» договорённости в середине разговора, теряет нить повествования в длинных текстах или даёт противоречивые ответы. Большое окно решает эти проблемы, но требует больше вычислительных ресурсов и стоит дороже в API.

При выборе модели для задачи всегда стоит соотносить объём входных данных с лимитом контекста: если ваши данные не помещаются — модель работает с неполной картиной.

Связанные термины

Токен (Token) — единица измерения контекста, фрагмент текста, которым оперирует модель.

RAG (Retrieval-Augmented Generation) — технология, позволяющая «обходить» ограничения контекста: вместо загрузки всего текста модель ищет только нужные фрагменты.

Системный промпт (System Prompt) — инструкции для модели, которые занимают часть контекстного окна.

Галлюцинации (Hallucinations) — ошибки модели, которые могут возникать в том числе при потере контекста.

См. также: Токенизация, RAG, Промпт-инжиниринг

Контекстное окно (Context Window)

Определение простыми словами

Как это работает

Размеры контекстных окон у популярных моделей

Примеры использования

Почему размер контекста важен

Связанные термины

Источники

Похожие статьи

Контекстное окно LLM: почему размер имеет значение

Контекстное окно 1 миллион токенов: что меняется на практике

Claude Sonnet 4.6: новый уровень AI для работы и кода

Токенизация простыми словами: как LLM понимает текст

Anthropic выпустила Claude Opus 4.8: честнее, быстрее, дешевле