Год назад контекстное окно в 128 тысяч токенов казалось колоссальным. Сегодня это уже базовый минимум: Gemini 3 Pro работает с миллионом токенов по умолчанию, Claude Sonnet 4.6 и Opus 4.6 получили миллионный контекст в марте 2026-го, GPT-5.4 от OpenAI вышел с окном в 1 050 000 токенов. Гонка за длину контекста превратилась в маркетинговое соревнование.

Но что за этими цифрами стоит на практике? Миллион токенов — это реально полезно или красивая цифра в пресс-релизе? Давайте разберёмся без рекламы.

Что такое миллион токенов — в человеческих единицах

Прежде всего — масштаб. Токен — это примерно 0,75 слова в английском тексте, в русском чуть меньше из-за морфологии. Один миллион токенов — это:

Единица измеренияКоличество
Слов (английский)~750 000
Страниц A4~1 500–2 000
Романов среднего размера~7–8 книг
Строк кода (Python/JS)~50 000
Часов аудио (транскрипция)~10–12 часов
Корпоративных email за год~15 000 писем

Для сравнения: полный текст «Войны и мира» — около 580 000 токенов. То есть в один запрос теперь помещается весь Толстой с комментариями и критическими статьями о нём.

ℹ Токен vs слово
Один токен ≠ одно слово. Слово «нейросеть» может занять 3–4 токена. Код и технические термины разбиваются иначе, чем обычный текст. Оценивайте ёмкость контекста в «страницах» — так нагляднее.

Кто и что предлагает сегодня

Состояние рынка на апрель 2026 года: несколько ключевых игроков уже перешагнули миллионный рубеж, и конкуренция только усиливается.


graph TD
    A[Модели с большим контекстом] --> B[Google]
    A --> C[Anthropic]
    A --> D[OpenAI]
    B --> B1["Gemini 3 Pro — 1M токенов"]
    B --> B2["Gemini 3.1 Pro — 2M токенов"]
    C --> C1["Claude Opus 4.6 — 1M токенов (GA март 2026)"]
    C --> C2["Claude Sonnet 4.6 — 1M токенов"]
    D --> D1["GPT-5.4 — 1.05M токенов"]

Важно: Anthropic сделала миллионный контекст для Claude общедоступным только в марте 2026 года — до этого он был в бете для избранных. Google работает с длинными контекстами дольше всех: Gemini 1.5 Pro получил возможность 1M+ ещё в 2024-м. Сейчас Gemini 3.1 Pro заявляет 2 миллиона токенов — абсолютный рекорд среди массовых моделей.

Гонка контекстных окон — это не просто маркетинг. За ней стоит фундаментально иная архитектура работы с информацией: от «поискового» режима к «пониманию всего корпуса».

Где длинный контекст реально меняет правила игры

Анализ кодовой базы целиком

Раньше при работе с большим проектом приходилось «кормить» модель по кусочкам: вот этот файл, вот тот модуль, объясни связи. Модель не видела картину целиком и давала советы в вакууме.

Теперь можно загрузить весь репозиторий в контекст и задавать вопросы типа «покажи все места, где этот класс используется неправильно» или «почему падает тест в модуле X, учитывая зависимости в Y и Z». Модель видит весь граф зависимостей.

# Пример: загрузка всего репозитория в контекст через API
import anthropic
from pathlib import Path

client = anthropic.Anthropic()

def load_repo_to_context(repo_path: str) -> str:
    """Собирает все .py файлы репозитория в один текст для контекста"""
    files = Path(repo_path).rglob("*.py")
    context = []
    for f in files:
        context.append(f"# === {f.relative_to(repo_path)} ===\n{f.read_text()}")
    return "\n\n".join(context)

repo_context = load_repo_to_context("./my_project")

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=4096,
    messages=[{
        "role": "user",
        "content": f"{repo_context}\n\nНайди все потенциальные race condition в этом коде."
    }]
)
💡 Практический совет для разработчиков
При загрузке кодовой базы в контекст сортируйте файлы по важности: сначала ключевые модули, потом вспомогательные. Из-за эффекта «потери середины» модель лучше запоминает начало и конец контекста.

Юридические и финансовые документы

Это один из самых очевидных промышленных кейсов. Типичный пакет документов для M&A сделки — тысячи страниц договоров, регуляторных документов, финансовых отчётов. Раньше их нужно было обрабатывать частями с риском потерять связи между документами.

С миллионным контекстом: загружаешь весь discovery package и просишь найти противоречия между пунктами разных договоров. Или анализируешь годовые отчёты конкурентов за 5 лет в одном запросе.

Исследования и академический анализ

Представьте задачу: нужно написать обзорную статью по теме, охватив 50–80 научных публикаций. Раньше — многочасовая работа с ручным конспектированием. Теперь — загружаете все PDF в контекст и просите выявить консенсус, противоречия и белые пятна.

Google демонстрировал впечатляющий кейс: с помощью Gemini 1.5 Pro, загрузив в контекст учебник грамматики, словарь и 400 параллельных предложений, модель научилась переводить на каламанг — папуасский язык с менее чем 200 носителями. Это то, что было технически невозможно с короткими контекстами.

Долгосрочные агентные задачи

Это, пожалуй, самое революционное применение. AI-агенты, которые работают часами, накапливают огромный «след» выполненных шагов, результатов поиска, промежуточных выводов. С окном в 8–32K токена агент «забывал» контекст задачи уже через несколько шагов. С миллионным окном — вся история работы умещается, и агент сохраняет последовательность.

Неудобная правда: «context rot» и потеря середины

Здесь начинается честный разговор. Миллион токенов в спецификации не означает, что все они одинаково полезны.

Исследования 2025–2026 годов вскрыли серьёзную проблему, которую назвали context rot («гниение контекста»): с ростом контекста качество работы модели деградирует, причём неравномерно.

⚠ Эффект потери середины
Трансформерная архитектура с механизмом softmax-внимания физически не может уделять равное внимание всем токенам. Чем длиннее контекст, тем сильнее «размываются» токены в середине. Это не баг — это фундаментальное свойство архитектуры.

Реальные бенчмарки (multi-needle retrieval, 2025–2026):

МодельТочность при 128KТочность при 1M
Claude Opus 4.6~92%~78%
GPT-5.4~80%~37%
Gemini 3.1 Pro~59%~26%

Данные жёсткие: GPT-5.4 теряет больше половины точности при переходе от 128K к 1M. Claude держится лучше других, но всё равно падает на 14 процентных пунктов. Исследование Microsoft Research 2025 года показало: эффективное использование контекста падает примерно до 60% после отметки 100K токенов.

Ротационное позиционное кодирование (RoPE), которое используют большинство современных моделей, вводит эффект систематического снижения веса токенов с ростом их позиции в контексте. Это не починить обновлением — это свойство самого механизма внимания.

Цена вопроса: экономика длинного контекста

Длинный контекст — дорого. Некоторые провайдеры прямо прописывают повышающие коэффициенты для больших промптов.

⚠ Ценовые ловушки
Ряд провайдеров применяет коэффициент 2× для запросов, превышающих ~272K токенов. Промпт в 500K токенов автоматически удваивает стоимость входящих данных. Всегда проверяйте pricing page перед запуском на больших объёмах.

Практическая арифметика: если вы загружаете 800K токенов контекста, делаете 1000 запросов в день, и каждый входящий токен стоит $2.50 за миллион — это $2000 в день только на входящие данные. С повышающим коэффициентом — $4000. В месяц — $120 000.

Решение: кэширование контекста. Anthropic и Google предлагают механизм кэширования промптов — фиксированный контекст (например, вся кодовая база) загружается один раз и кэшируется. Повторные запросы к тому же контексту обходятся в разы дешевле. Это критически важная фича при промышленном использовании.

Как использовать длинный контекст правильно

Несколько принципов, которые реально работают:

1. Важное — в начало и конец. Из-за эффекта потери середины ключевые инструкции, критические факты и желаемый формат ответа размещайте в начале или конце контекста. Середина «теряется» сильнее.

2. Структурируйте контекст явно. Используйте XML-теги, заголовки, разделители. Это помогает модели навигировать по большому объёму и снижает эффект «размытия».

<documents>
  <document id="1" type="contract" date="2025-01">
    [текст договора]
  </document>
  <document id="2" type="amendment" date="2025-06">
    [текст дополнения]
  </document>
</documents>
<task>Найди противоречия между документами 1 и 2</task>

3. Не умещайте всё только потому что можете. Если задача решается с 50K токенов — не нужно грузить 500K. Качество ответа не растёт пропорционально объёму контекста, а стоимость — растёт линейно.

4. Стратегическое чанкирование всё ещё актуально. Для задач, где важна точность на конкретном фрагменте, лучше загружать релевантные части, а не всё подряд. RAG (Retrieval-Augmented Generation) не умер — он теперь комбинируется с длинным контекстом.

📝 Гибридная стратегия
Оптимальный паттерн для большого документа: RAG находит релевантные фрагменты → они загружаются в контекст вместе с несколькими соседними страницами для полноты → модель работает с ~50-100K токенами вместо 1M. Точность выше, стоимость ниже.

Заключение: миллион токенов как инфраструктура, а не волшебство

Контекстное окно в миллион токенов — это не панацея и не гиперболизированный маркетинг. Это инфраструктурный сдвиг, который открывает принципиально новые классы задач: анализ целых кодовых баз, многодокументное юридическое исследование, долгосрочные агентные цепочки, работа с корпусами данных без предварительной разбивки.

Но у этой инфраструктуры есть физические ограничения — context rot, потеря середины, нелинейный рост стоимости. Модели держат 1M токенов в «памяти», но внимание к ним неравномерно.

Правильный вывод не «теперь можно всё» и не «это бесполезно». Правильный вывод: длинный контекст — мощный инструмент, который требует осознанного применения. Понимайте его ограничения, используйте кэширование, структурируйте данные, помещайте важное на краях контекста — и вы получите реальное преимущество, а не счёт за миллионы токенов без результата.

В ближайшие год-два архитектурные улучшения (линейное внимание, State Space Models, гибридные подходы) будут постепенно решать проблему context rot. Но уже сейчас миллионный контекст переформатирует целые индустрии — от юридических фирм до команд разработки программного обеспечения.