Пользователи премиум-планов Claude сообщают о критических проблемах с системой квот. Владельцы тарифа Pro Max 5x жалуются, что лимиты API исчерпываются всего за 1.5 часа при умеренном использовании, хотя ранее их хватало на полноценный рабочий день.

⚠ Критическая проблема
Пользователи сообщают о неожиданно быстром исчерпании квот Claude Pro Max — за 1.5 часа вместо ожидаемых 8-10 часов работы

Детали проблемы

Один из пользователей провёл детальный анализ потребления токенов через логи Claude Code CLI. Согласно его данным, проблема связана с неправильным подсчётом cache_read токенов в системе квот.

ПараметрОжидаемое поведениеФактическое поведение
Cache read токеныСчитаются как 1/10 от обычной ценыСчитаются по полной стоимости
Время работы8-10 часов1.5 часа
Эффективность кешированияСнижение затрат в 10 разОтсутствие экономии

Техническая сторона

Проблема проявляется особенно остро при работе с большими контекстами. Каждый API-вызов отправляет полный контекст (до 1 миллиона токенов), который должен кешироваться для экономии квоты.


graph TD
    A[API вызов] --> B[Отправка контекста 1M токенов]
    B --> C[Кеширование]
    C --> D{Подсчёт в квоте}
    D -->|Ожидается| E[1/10 стоимости]
    D -->|Фактически| F[Полная стоимость]
    F --> G[Быстрое исчерпание квоты]

ℹ Контекст проблемы
Claude Code CLI автоматически создаёт компакты контекста при достижении лимита в ~960k токенов, что приводит к дополнительным расходам квоты

Дополнительные факторы

Анализ показал несколько усугубляющих факторов:

Фоновые сессии: Неактивные сессии Claude продолжают потреблять квоту через автоматические операции компактирования и обработки хуков.

Автокомпактирование: При достижении лимита контекста система автоматически создаёт самый дорогой API-вызов с полным контекстом.

Множественные проекты: Пользователи часто работают с несколькими проектами одновременно, что усиливает проблему.

💡 Временное решение
Пока проблема не решена, рекомендуется закрывать неактивные сессии Claude и избегать работы с несколькими проектами одновременно

Измеренное потребление

Пользователь предоставил детальную статистику:

Период интенсивной работы (5 часов):

  • 2,715 API-вызовов
  • 1.04 млрд cache_read токенов
  • 1.15 млн output токенов
  • Ожидаемое потребление: 121.8M эффективных токенов

Период умеренного использования (1.5 часа):

  • 691 API-вызов
  • 103.9M cache_read токенов
  • 387k output токенов
  • Фактическое исчерпание квоты

“Если cache_read токены считаются по полной стоимости, это означает, что промпт-кеширование не даёт никаких преимуществ для лимитов использования” — отмечает пользователь в баг-репорте.

Предложения по улучшению

Сообщество предлагает Anthropic несколько решений:

  1. Исправить подсчёт cache_read токенов — считать их по сниженной ставке (1/10) не только для биллинга, но и для квот
  2. Добавить детализацию расхода квот в интерфейс Claude Code
  3. Внедрить обнаружение неактивных сессий для предотвращения фонового расхода
  4. Показывать оценки расхода квоты перед выполнением операций
📝 Масштаб проблемы
При контексте в 960k токенов и 200 вызовах в час (нормально для Claude Code), квота может исчерпаться за минуты при текущем алгоритме подсчёта

Пользователи ожидают от Anthropic официального ответа и исправления в ближайших обновлениях, поскольку проблема критически влияет на продуктивность работы с Claude Code CLI.