26 марта 2026 года Google представила Gemini 3.1 Flash Live — самую качественную на сегодняшний день аудиомодель компании, созданную для естественного и надёжного диалога в реальном времени. Модель стала быстрее, точнее понимает интонации и может выполнять сложные многошаговые задачи по голосовой команде. По сути, это следующий шаг к тому, чтобы разговор с AI перестал отличаться от разговора с живым собеседником.

Зачем нужна новая аудиомодель

Голосовые интерфейсы долгое время оставались слабым звеном AI-ассистентов. Классическая схема «речь → текст → обработка → текст → речь» добавляла задержку и теряла интонационные нюансы. Gemini 3.1 Flash Live работает иначе: модель нативно обрабатывает аудио, минуя промежуточное преобразование в текст. Это даёт два ключевых преимущества — низкую задержку и понимание тона.

ℹ Что значит 'native audio'?
В отличие от каскадных систем (ASR → LLM → TTS), нативная аудиомодель принимает звук на входе и генерирует звук на выходе напрямую. Это позволяет сохранять просодику — ритм, паузы, интонации — и реагировать на них в реальном времени.

graph LR
    A["🎙 Голос пользователя"] --> B["Gemini 3.1 Flash Live
(native audio)"] B --> C["🔊 Голосовой ответ"] B --> D["⚙️ Вызов функций / инструментов"] D --> B style B fill:#4285F4,stroke:#333,color:#fff

Где доступна модель

Google сделала 3.1 Flash Live доступной сразу на нескольких уровнях:

АудиторияПродуктСтатус
РазработчикиGemini Live API через Google AI StudioPreview
БизнесGemini Enterprise for Customer ExperienceДоступно
Все пользователиSearch Live и Gemini Live200+ стран

Для обычных пользователей это означает, что голосовое общение с Google Поиском (через функцию Search Live) и с ассистентом Gemini Live стало доступно практически по всему миру — в более чем 200 странах и территориях, включая Россию. Модель поддерживает 98+ языков.

Бенчмарки: цифры говорят сами за себя

Google приводит результаты на двух профильных бенчмарках, которые оценивают не просто качество распознавания речи, а способность модели выполнять сложные задачи через голосовой интерфейс.

БенчмаркЧто измеряетРезультат 3.1 Flash Live
ComplexFuncBench AudioМногошаговый вызов функций с ограничениями (бронирования, цепочки действий)90,8%
Audio MultiChallenge (Scale AI)Сложные инструкции и рассуждения при шумах, паузах и запинках36,1% (с «thinking»)

Результат 90,8% на ComplexFuncBench Audio означает, что модель корректно обрабатывает 9 из 10 сложных многошаговых голосовых запросов — например, бронирование перелёта с пересадкой и арендой автомобиля в одном диалоге.

💡 Что такое 'thinking' в бенчмарке?
Режим «thinking» (рассуждение) позволяет модели выделить время на внутреннюю цепочку рассуждений перед ответом — аналог Chain-of-Thought. Это повышает точность на задачах, требующих логики, но может немного увеличить задержку.

Что улучшилось по сравнению с предыдущей версией

Gemini 3.1 Flash Live пришла на смену 2.5 Flash Native Audio. Вот ключевые различия:

Параметр2.5 Flash Native Audio3.1 Flash Live
Понимание интонацииБазовоеУлучшенное (pitch, pace, эмоции)
Длина удержания контекстаСтандартнаяВ 2 раза длиннее
Скорость ответаБыстрее (конкретных цифр Google не раскрыла)
Адаптация к фрустрацииОграниченнаяДинамическая подстройка тона
ComplexFuncBench AudioБазовый показатель90,8%

Особенно интересна адаптация к эмоциям пользователя. Если человек начинает говорить раздражённо или растерянно, модель распознаёт это и корректирует свой стиль ответа — замедляется, переходит на более простые формулировки, проявляет больше эмпатии. Для клиентских служб поддержки это критически важная функция.

Для разработчиков: голосовые агенты нового уровня

Главная ценность 3.1 Flash Live для разработчиков — возможность строить голосовых AI-агентов, которые надёжно выполняют сложные задачи. Модель поддерживает вызов функций (function calling) прямо из голосового потока, что позволяет создавать сценарии вроде:

  • Голосовой агент техподдержки, который параллельно проверяет статус заказа, находит ближайший сервисный центр и назначает визит — всё в одном разговоре
  • Голосовой помощник для разработки («vibe coding»), через который можно надиктовывать код и итерировать в реальном времени
  • Мультимодальный ассистент, который одновременно видит камеру пользователя и слышит его голос

flowchart TD
    A["Пользователь говорит запрос"] --> B{"Gemini 3.1 Flash Live"}
    B --> C["Понимание намерения"]
    C --> D["Вызов функции 1:
поиск рейса"] C --> E["Вызов функции 2:
проверка отеля"] D --> F["Агрегация результатов"] E --> F F --> G["Голосовой ответ
с результатами"] G --> H{"Уточняющий вопрос?"} H -- Да --> B H -- Нет --> I["Завершение диалога"] style B fill:#4285F4,stroke:#333,color:#fff

Среди компаний, уже тестирующих 3.1 Flash Live в своих процессах — Verizon (телеком-гигант), LiveKit (платформа для real-time коммуникаций) и The Home Depot (крупнейшая сеть товаров для дома в США). Все отмечают заметное улучшение естественности разговора.

📝 Пример: голосовой шопинг-ассистент
Представьте: вы звоните в службу поддержки интернет-магазина. AI-агент на базе 3.1 Flash Live понимает, что вы расстроены из-за задержки доставки, переключается на спокойный тон, находит ваш заказ, предлагает варианты компенсации и оформляет возврат — всё голосом, без переключения на оператора.

Для пользователей: быстрее и умнее

Для обычных людей обновление означает две вещи:

1. Gemini Live стал быстрее и «памятливее». Ответы приходят с меньшей задержкой, а модель удерживает нить разговора вдвое дольше. Это особенно заметно в длинных брейнштормах — теперь AI не «забывает», о чём шла речь пять минут назад.

2. Search Live стал глобальным. Функция голосового и мультимодального поиска, которая изначально была доступна только в США, теперь работает в 200+ странах. Можно навести камеру на объект, задать вопрос голосом и получить ответ в реальном времени — на своём языке.

Безопасность: водяные знаки SynthID

Все аудио, сгенерированные моделью 3.1 Flash Live, маркируются технологией SynthID — невидимым (неслышимым) водяным знаком, который встраивается прямо в звуковой поток. Это позволяет достоверно определить, что аудиозапись создана AI, и помогает бороться с дезинформацией.

⚠ Почему это важно
По мере того как голосовые модели становятся неотличимы от живой речи, растёт риск deepfake-аудио. SynthID — одна из попыток индустрии решить эту проблему на уровне инфраструктуры, а не постфактум.

Что это значит для рынка

Gemini 3.1 Flash Live — это ответ Google на растущую конкуренцию в области голосового AI. OpenAI активно развивает голосовой режим ChatGPT, а такие компании, как ElevenLabs и Hume AI, создают всё более реалистичные голосовые решения. Ставка Google — на интеграцию: модель встроена сразу в поиск, ассистента и API для разработчиков, что даёт ей масштаб, недоступный узкоспециализированным стартапам.

Голосовой интерфейс перестаёт быть «надстройкой» над текстовым AI — он становится самостоятельным модальным слоем, который понимает не только слова, но и то, как они сказаны.

Итоги

Gemini 3.1 Flash Live — значимый шаг в развитии голосового AI. Модель объединяет низкую задержку, понимание эмоций, многоязычность и надёжный вызов функций в одном продукте. Для разработчиков это возможность строить голосовых агентов, которые действительно работают в реальных условиях. Для пользователей — более естественное и полезное общение с AI в повседневных задачах.

Модель уже доступна через Gemini Live API в Google AI Studio, а для конечных пользователей — через Gemini Live и Search Live в приложении Google.