Контекстное окно (Context Window)
Что такое контекстное окно языковой модели, как оно работает, от чего зависит его размер и почему это важно для работы с AI.
Контекстное окно (Context Window)
Определение простыми словами
Контекстное окно — это «рабочая память» языковой модели: всё, что она может «видеть» и учитывать в один момент времени. Чем больше окно — тем больше текста модель держит в голове одновременно.
Представьте, что вы разговариваете с очень умным консультантом, но у него есть одно ограничение: он помнит только последние N страниц вашего разговора. Всё, что было до — для него как будто не существует. Именно так работает контекстное окно.
«Контекстное окно — это не просто техническое ограничение. Это граница реальности для языковой модели: за её пределами для AI не существует ничего.»
[!NOTE] Ключевое определение Контекстное окно (Context Window) — максимальный объём текста (в токенах), который языковая модель может обработать за один запрос: сюда входят системный промпт, история диалога, загруженные документы и ответ самой модели.
Как это работает
Языковые модели работают с токенами — фрагментами текста, примерно соответствующими словам или частям слов. Один токен ≈ 4 символа в английском языке, в русском — чуть меньше из-за кириллицы.
Когда вы отправляете сообщение модели, она видит:
- Системный промпт — инструкции, заданные заранее
- Историю диалога — все предыдущие сообщения
- Ваш новый вопрос
- Место для ответа — тоже занимает токены
Если суммарный объём превышает лимит контекстного окна, старые части разговора автоматически отсекаются. Модель буквально «забывает» начало беседы — и может начать противоречить себе или терять важный контекст.
Размеры контекстных окон у популярных моделей
| Модель | Контекстное окно | Примерный объём текста |
|---|---|---|
| GPT-4o (OpenAI) | 128 000 токенов | ~300 страниц А4 |
| Claude 3.5 Sonnet (Anthropic) | 200 000 токенов | ~450 страниц А4 |
| Gemini 1.5 Pro (Google) | 1 000 000 токенов | ~2 000 страниц А4 |
| Gemini 1.5 Flash | 1 000 000 токенов | ~2 000 страниц А4 |
| Llama 3.1 (Meta, 8B/70B) | 128 000 токенов | ~300 страниц А4 |
| Mistral Large 2 | 128 000 токенов | ~300 страниц А4 |
Данные актуальны на январь 2025 года. Производители регулярно обновляют параметры моделей.
Примеры использования
📄 Анализ длинных документов Загрузить целый PDF-отчёт, договор или научную статью и задавать по ним вопросы — без необходимости копировать фрагменты вручную.
💬 Длинные диалоги с сохранением контекста При работе над большим проектом модель помнит всё обсуждение: принятые решения, уточнения, предпочтения пользователя.
💻 Рефакторинг кода Поместить в контекст целый репозиторий или несколько крупных файлов и попросить найти баги, переписать архитектуру или задокументировать код.
📚 Суммаризация книг и статей С окном в 1 млн токенов Gemini 1.5 Pro может обработать целую книгу за один запрос и создать подробное саммари.
Почему размер контекста важен
Маленькое контекстное окно — основная причина, почему AI «забывает» договорённости в середине разговора, теряет нить повествования в длинных текстах или даёт противоречивые ответы. Большое окно решает эти проблемы, но требует больше вычислительных ресурсов и стоит дороже в API.
При выборе модели для задачи всегда стоит соотносить объём входных данных с лимитом контекста: если ваши данные не помещаются — модель работает с неполной картиной.
Связанные термины
Токен (Token) — единица измерения контекста, фрагмент текста, которым оперирует модель.
RAG (Retrieval-Augmented Generation) — технология, позволяющая «обходить» ограничения контекста: вместо загрузки всего текста модель ищет только нужные фрагменты.
Системный промпт (System Prompt) — инструкции для модели, которые занимают часть контекстного окна.
Галлюцинации (Hallucinations) — ошибки модели, которые могут возникать в том числе при потере контекста.
См. также: Токенизация, RAG, Промпт-инжиниринг
Источники
- https://platform.openai.com/docs/models
- https://www.anthropic.com/claude
- https://deepmind.google/technologies/gemini/