Пользователи Claude столкнулись с быстрым исчерпанием квот

Пользователи премиум-планов Claude сообщают о критических проблемах с системой квот. Владельцы тарифа Pro Max 5x жалуются, что лимиты API исчерпываются всего за 1.5 часа при умеренном использовании, хотя ранее их хватало на полноценный рабочий день.

⚠ Критическая проблема

Пользователи сообщают о неожиданно быстром исчерпании квот Claude Pro Max — за 1.5 часа вместо ожидаемых 8-10 часов работы

Детали проблемы

Один из пользователей провёл детальный анализ потребления токенов через логи Claude Code CLI. Согласно его данным, проблема связана с неправильным подсчётом cache_read токенов в системе квот.

Параметр	Ожидаемое поведение	Фактическое поведение
Cache read токены	Считаются как 1/10 от обычной цены	Считаются по полной стоимости
Время работы	8-10 часов	1.5 часа
Эффективность кеширования	Снижение затрат в 10 раз	Отсутствие экономии

Техническая сторона

Проблема проявляется особенно остро при работе с большими контекстами. Каждый API-вызов отправляет полный контекст (до 1 миллиона токенов), который должен кешироваться для экономии квоты.


graph TD
    A[API вызов] --> B[Отправка контекста 1M токенов]
    B --> C[Кеширование]
    C --> D{Подсчёт в квоте}
    D -->|Ожидается| E[1/10 стоимости]
    D -->|Фактически| F[Полная стоимость]
    F --> G[Быстрое исчерпание квоты]

ℹ Контекст проблемы

Claude Code CLI автоматически создаёт компакты контекста при достижении лимита в ~960k токенов, что приводит к дополнительным расходам квоты

Дополнительные факторы

Анализ показал несколько усугубляющих факторов:

Фоновые сессии: Неактивные сессии Claude продолжают потреблять квоту через автоматические операции компактирования и обработки хуков.

Автокомпактирование: При достижении лимита контекста система автоматически создаёт самый дорогой API-вызов с полным контекстом.

Множественные проекты: Пользователи часто работают с несколькими проектами одновременно, что усиливает проблему.

💡 Временное решение

Пока проблема не решена, рекомендуется закрывать неактивные сессии Claude и избегать работы с несколькими проектами одновременно

Измеренное потребление

Пользователь предоставил детальную статистику:

Период интенсивной работы (5 часов):

2,715 API-вызовов
1.04 млрд cache_read токенов
1.15 млн output токенов
Ожидаемое потребление: 121.8M эффективных токенов

Период умеренного использования (1.5 часа):

691 API-вызов
103.9M cache_read токенов
387k output токенов
Фактическое исчерпание квоты

“Если cache_read токены считаются по полной стоимости, это означает, что промпт-кеширование не даёт никаких преимуществ для лимитов использования” — отмечает пользователь в баг-репорте.

Предложения по улучшению

Сообщество предлагает Anthropic несколько решений:

Исправить подсчёт cache_read токенов — считать их по сниженной ставке (1/10) не только для биллинга, но и для квот
Добавить детализацию расхода квот в интерфейс Claude Code
Внедрить обнаружение неактивных сессий для предотвращения фонового расхода
Показывать оценки расхода квоты перед выполнением операций

📝 Масштаб проблемы

При контексте в 960k токенов и 200 вызовах в час (нормально для Claude Code), квота может исчерпаться за минуты при текущем алгоритме подсчёта

Пользователи ожидают от Anthropic официального ответа и исправления в ближайших обновлениях, поскольку проблема критически влияет на продуктивность работы с Claude Code CLI.

Детали проблемы

Техническая сторона

Дополнительные факторы

Измеренное потребление

Предложения по улучшению

Источники

Похожие статьи

Claude 4.7 «подтвердил» задачи несуществующими данными

Claude Code для десктопа: параллельные агенты и новый интерфейс

Anthropic тайно сократила время кэширования Claude с часа до 5 минут

Anthropic запустила Managed Agents — обёртки над AI теряют смысл

Обзор Claude 4: возможности, цены, сравнение с конкурентами