Когда ваше AI-приложение разрастается от простого чат-бота до сложной мультиагентной системы, появляется неизбежная проблема: одни задачи требуют мгновенного ответа, а другие спокойно могут подождать. До сих пор Gemini API предлагал два полюса — стандартный синхронный вызов и асинхронный Batch API. 2 апреля 2026 года Google заполнил пробел между ними, выпустив два новых уровня обслуживания: Flex и Priority.

Flex и Priority — это не замена существующих тарифов, а дополнительные уровни в рамках единого синхронного интерфейса. Один параметр service_tier в запросе — и вы выбираете баланс между ценой и надёжностью.

Зачем понадобились новые уровни

Современные AI-приложения редко бывают однородными. Внутри одного продукта живут принципиально разные типы нагрузок:

  • Фоновые задачи — массовая обработка данных, обогащение CRM, «размышления» агентов, исследовательские пайплайны. Здесь важен результат, а не скорость.
  • Интерактивные задачи — чат-боты, копайлоты, модерация контента в реальном времени. Здесь задержка в несколько секунд уже критична.
ℹ Как было раньше
До появления Flex и Priority разработчику приходилось строить гибридную архитектуру: синхронные вызовы для интерактива и Batch API для фоновых задач. Это означало два разных потока данных, управление файлами ввода/вывода и поллинг статуса асинхронных джобов. Новые уровни решают эту проблему — оба работают через обычные синхронные эндпоинты.

graph TD
    A[Запрос к Gemini API] --> B{Какой тип задачи?}
    B -->|Фоновая обработка| C[Flex — скидка 50%]
    B -->|Обычная задача| D[Standard — базовый уровень]
    B -->|Критический запрос| E[Priority — макс. надёжность]
    C --> F[Задержка: 1–15 минут]
    D --> G[Задержка: стандартная]
    E --> H[Задержка: миллисекунды–секунды]

Flex Inference: экономия 50% на фоновых задачах

Flex Inference — это уровень, оптимизированный по цене. Он рассчитан на задачи, терпимые к задержке (latency-tolerant), но при этом не требует возни с асинхронной обработкой, как Batch API.

Ключевые характеристики Flex

ПараметрFlexStandardBatch API
Экономия50% от StandardБазовая цена50% от Standard
Тип вызоваСинхронныйСинхронныйАсинхронный
Целевая задержка1–15 минутСекундыЧасы (до 24ч)
Гарантия выполненияНегарантированнаяСтандартнаяГарантированная
Управление файламиНе нужноНе нужноНужно
ДоступностьВсе платные тарифыВсе тарифыВсе платные тарифы

Как видно из таблицы, Flex занимает нишу между Standard и Batch: та же скидка 50%, что и у Batch API, но без головной боли с асинхронными очередями. Компромисс — отсутствие гарантии выполнения запроса: при высокой нагрузке на платформу запрос может быть отклонён.

Как подключить Flex

Достаточно добавить один параметр в запрос:

from google import genai

client = genai.Client()

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Объясни принцип работы трансформеров простым языком",
    config={
        "service_tier": "FLEX",
    },
)

print(response.text)
💡 Совет
Flex идеально подходит для агентных сценариев, где модель «думает» в фоне — анализирует документы, строит планы, собирает информацию из нескольких источников. Пользователь не ждёт у экрана, а система экономит 50% бюджета.

Когда использовать Flex

  • Массовое обогащение данных — обновление карточек CRM, классификация тикетов, генерация описаний товаров.
  • Исследовательские пайплайны — проверка гипотез на больших выборках, суммаризация научных статей.
  • Агентные воркфлоу — этапы «размышлений», где агент анализирует промежуточные результаты перед следующим шагом.
  • Пакетная генерация контента — создание черновиков, которые человек проверит позже.

Priority Inference: максимальная надёжность для критичных приложений

На противоположном конце спектра — Priority Inference. Это премиальный уровень с наивысшим приоритетом обработки запросов. Стоит он на 75–100% дороже Standard, но взамен обеспечивает максимальную доступность даже в моменты пиковой нагрузки на платформу.

Ключевые характеристики Priority

  • Наивысший приоритет — запросы Priority обрабатываются первыми, даже когда ресурсы платформы загружены.
  • Плавная деградация (graceful downgrade) — если ваш трафик превышает лимит Priority, «лишние» запросы автоматически обслуживаются на уровне Standard, а не отклоняются. Приложение продолжает работать.
  • Прозрачность — в ответе API указано, на каком уровне был обработан запрос. Вы всегда знаете, за что платите.

Как подключить Priority

from google import genai

client = genai.Client()

response = client.models.generate_content(
    model="gemini-2.5-pro",
    contents="Проанализируй тональность этого отзыва клиента...",
    config={
        "service_tier": "PRIORITY",
    },
)

# Проверяем, на каком уровне обработан запрос
print(response.service_tier)  # "PRIORITY" или "STANDARD" при переполнении
print(response.text)
⚠ Ограничение доступа
Priority Inference доступен только для проектов с платным тарифом Tier 2 и Tier 3. Если ваш проект на Tier 1, сначала потребуется повысить уровень в Google AI Studio.

Когда использовать Priority

  • Чат-боты поддержки клиентов — где задержка ответа напрямую влияет на удовлетворённость.
  • Модерация контента в реальном времени — когда нельзя пропустить опасный контент из-за перегрузки API.
  • Финансовые и бизнес-критичные системы — детекция мошенничества, скоринг заявок в реальном времени.
  • Копайлоты для продуктивности — где пользователь ожидает мгновенный ответ.

Сравнение всех уровней обслуживания

УровеньСтоимостьЗадержкаНадёжностьТип вызоваКому доступен
Flex−50% от Standard1–15 минПониженнаяСинхронныйВсе платные тарифы
StandardБазоваяСекундыСтандартнаяСинхронныйВсе тарифы
Priority+75–100% к StandardМиллисекунды–секундыМаксимальнаяСинхронныйTier 2 и Tier 3
Batch−50% от StandardДо 24 часовГарантированнаяАсинхронныйВсе платные тарифы

graph LR
    subgraph "Стоимость ↓"
        FLEX["Flex
−50%"] end subgraph "Баланс" STD["Standard
Базовая цена"] end subgraph "Надёжность ↑" PRI["Priority
+75–100%"] end FLEX -->|"Повышение
приоритета"| STD STD -->|"Повышение
приоритета"| PRI PRI -.->|"Graceful
downgrade"| STD

Архитектурный паттерн: разделение нагрузки

На практике большинство продуктовых команд будет комбинировать несколько уровней в рамках одного приложения. Типичная схема выглядит так:

  1. Пользовательский чат → Priority (мгновенный ответ, высокая доступность).
  2. Фоновый анализ и подготовка данных → Flex (экономия бюджета, задержка допустима).
  3. Всё остальное → Standard (разумный баланс по умолчанию).
📝 Пример: служба поддержки с AI
Представьте AI-ассистента для клиентской поддержки. Когда клиент пишет в чат — запрос идёт через Priority, чтобы ответ пришёл мгновенно. Параллельно, агент в фоне через Flex анализирует историю обращений клиента, чтобы подготовить контекст для оператора. Экономия на фоновых задачах частично компенсирует наценку Priority на интерактивных.

Что это значит для разработчиков

Появление Flex и Priority — логичный шаг в развитии API для AI-инференса. Вместо того чтобы заставлять разработчиков выбирать между «быстро и дорого» и «дёшево, но асинхронно», Google даёт плавную шкалу приоритетов в рамках единого синхронного интерфейса.

Ключевые выводы:

  • Переход на Flex — это самый быстрый способ сократить расходы вдвое для задач, не требующих мгновенного ответа. В отличие от Batch API, не нужно переписывать архитектуру.
  • Priority — страховка для бизнес-критичных сценариев. Механизм graceful downgrade означает, что приложение не «упадёт» при превышении лимитов.
  • Параметр service_tier — единственное изменение в коде. Никаких новых эндпоинтов, SDK или библиотек.

Один параметр в запросе — и вы выбираете, что важнее: бюджет или скорость. Остальное платформа берёт на себя.

Подробную документацию с актуальными ценами и примерами кода можно найти на официальной странице Gemini API.