Flex и Priority в Gemini API: экономия и надёжность
Google запустил два новых уровня инференса в Gemini API — Flex со скидкой 50% и Priority с максимальной надёжностью. Разбираем, как это работает.
Когда ваше AI-приложение разрастается от простого чат-бота до сложной мультиагентной системы, появляется неизбежная проблема: одни задачи требуют мгновенного ответа, а другие спокойно могут подождать. До сих пор Gemini API предлагал два полюса — стандартный синхронный вызов и асинхронный Batch API. 2 апреля 2026 года Google заполнил пробел между ними, выпустив два новых уровня обслуживания: Flex и Priority.
Flex и Priority — это не замена существующих тарифов, а дополнительные уровни в рамках единого синхронного интерфейса. Один параметр
service_tierв запросе — и вы выбираете баланс между ценой и надёжностью.
Зачем понадобились новые уровни
Современные AI-приложения редко бывают однородными. Внутри одного продукта живут принципиально разные типы нагрузок:
- Фоновые задачи — массовая обработка данных, обогащение CRM, «размышления» агентов, исследовательские пайплайны. Здесь важен результат, а не скорость.
- Интерактивные задачи — чат-боты, копайлоты, модерация контента в реальном времени. Здесь задержка в несколько секунд уже критична.
graph TD
A[Запрос к Gemini API] --> B{Какой тип задачи?}
B -->|Фоновая обработка| C[Flex — скидка 50%]
B -->|Обычная задача| D[Standard — базовый уровень]
B -->|Критический запрос| E[Priority — макс. надёжность]
C --> F[Задержка: 1–15 минут]
D --> G[Задержка: стандартная]
E --> H[Задержка: миллисекунды–секунды]
Flex Inference: экономия 50% на фоновых задачах
Flex Inference — это уровень, оптимизированный по цене. Он рассчитан на задачи, терпимые к задержке (latency-tolerant), но при этом не требует возни с асинхронной обработкой, как Batch API.
Ключевые характеристики Flex
| Параметр | Flex | Standard | Batch API |
|---|---|---|---|
| Экономия | 50% от Standard | Базовая цена | 50% от Standard |
| Тип вызова | Синхронный | Синхронный | Асинхронный |
| Целевая задержка | 1–15 минут | Секунды | Часы (до 24ч) |
| Гарантия выполнения | Негарантированная | Стандартная | Гарантированная |
| Управление файлами | Не нужно | Не нужно | Нужно |
| Доступность | Все платные тарифы | Все тарифы | Все платные тарифы |
Как видно из таблицы, Flex занимает нишу между Standard и Batch: та же скидка 50%, что и у Batch API, но без головной боли с асинхронными очередями. Компромисс — отсутствие гарантии выполнения запроса: при высокой нагрузке на платформу запрос может быть отклонён.
Как подключить Flex
Достаточно добавить один параметр в запрос:
from google import genai
client = genai.Client()
response = client.models.generate_content(
model="gemini-2.5-flash",
contents="Объясни принцип работы трансформеров простым языком",
config={
"service_tier": "FLEX",
},
)
print(response.text)
Когда использовать Flex
- Массовое обогащение данных — обновление карточек CRM, классификация тикетов, генерация описаний товаров.
- Исследовательские пайплайны — проверка гипотез на больших выборках, суммаризация научных статей.
- Агентные воркфлоу — этапы «размышлений», где агент анализирует промежуточные результаты перед следующим шагом.
- Пакетная генерация контента — создание черновиков, которые человек проверит позже.
Priority Inference: максимальная надёжность для критичных приложений
На противоположном конце спектра — Priority Inference. Это премиальный уровень с наивысшим приоритетом обработки запросов. Стоит он на 75–100% дороже Standard, но взамен обеспечивает максимальную доступность даже в моменты пиковой нагрузки на платформу.
Ключевые характеристики Priority
- Наивысший приоритет — запросы Priority обрабатываются первыми, даже когда ресурсы платформы загружены.
- Плавная деградация (graceful downgrade) — если ваш трафик превышает лимит Priority, «лишние» запросы автоматически обслуживаются на уровне Standard, а не отклоняются. Приложение продолжает работать.
- Прозрачность — в ответе API указано, на каком уровне был обработан запрос. Вы всегда знаете, за что платите.
Как подключить Priority
from google import genai
client = genai.Client()
response = client.models.generate_content(
model="gemini-2.5-pro",
contents="Проанализируй тональность этого отзыва клиента...",
config={
"service_tier": "PRIORITY",
},
)
# Проверяем, на каком уровне обработан запрос
print(response.service_tier) # "PRIORITY" или "STANDARD" при переполнении
print(response.text)
Когда использовать Priority
- Чат-боты поддержки клиентов — где задержка ответа напрямую влияет на удовлетворённость.
- Модерация контента в реальном времени — когда нельзя пропустить опасный контент из-за перегрузки API.
- Финансовые и бизнес-критичные системы — детекция мошенничества, скоринг заявок в реальном времени.
- Копайлоты для продуктивности — где пользователь ожидает мгновенный ответ.
Сравнение всех уровней обслуживания
| Уровень | Стоимость | Задержка | Надёжность | Тип вызова | Кому доступен |
|---|---|---|---|---|---|
| Flex | −50% от Standard | 1–15 мин | Пониженная | Синхронный | Все платные тарифы |
| Standard | Базовая | Секунды | Стандартная | Синхронный | Все тарифы |
| Priority | +75–100% к Standard | Миллисекунды–секунды | Максимальная | Синхронный | Tier 2 и Tier 3 |
| Batch | −50% от Standard | До 24 часов | Гарантированная | Асинхронный | Все платные тарифы |
graph LR
subgraph "Стоимость ↓"
FLEX["Flex
−50%"]
end
subgraph "Баланс"
STD["Standard
Базовая цена"]
end
subgraph "Надёжность ↑"
PRI["Priority
+75–100%"]
end
FLEX -->|"Повышение
приоритета"| STD
STD -->|"Повышение
приоритета"| PRI
PRI -.->|"Graceful
downgrade"| STD
Архитектурный паттерн: разделение нагрузки
На практике большинство продуктовых команд будет комбинировать несколько уровней в рамках одного приложения. Типичная схема выглядит так:
- Пользовательский чат → Priority (мгновенный ответ, высокая доступность).
- Фоновый анализ и подготовка данных → Flex (экономия бюджета, задержка допустима).
- Всё остальное → Standard (разумный баланс по умолчанию).
Что это значит для разработчиков
Появление Flex и Priority — логичный шаг в развитии API для AI-инференса. Вместо того чтобы заставлять разработчиков выбирать между «быстро и дорого» и «дёшево, но асинхронно», Google даёт плавную шкалу приоритетов в рамках единого синхронного интерфейса.
Ключевые выводы:
- Переход на Flex — это самый быстрый способ сократить расходы вдвое для задач, не требующих мгновенного ответа. В отличие от Batch API, не нужно переписывать архитектуру.
- Priority — страховка для бизнес-критичных сценариев. Механизм graceful downgrade означает, что приложение не «упадёт» при превышении лимитов.
- Параметр
service_tier— единственное изменение в коде. Никаких новых эндпоинтов, SDK или библиотек.
Один параметр в запросе — и вы выбираете, что важнее: бюджет или скорость. Остальное платформа берёт на себя.
Подробную документацию с актуальными ценами и примерами кода можно найти на официальной странице Gemini API.