Gemini 3.1 Flash Live — голосовой AI стал естественнее — AI-Uchi — Всё об искусственном интеллекте

26 марта 2026 года Google представила Gemini 3.1 Flash Live — самую качественную на сегодняшний день аудиомодель компании, созданную для естественного и надёжного диалога в реальном времени. Модель стала быстрее, точнее понимает интонации и может выполнять сложные многошаговые задачи по голосовой команде. По сути, это следующий шаг к тому, чтобы разговор с AI перестал отличаться от разговора с живым собеседником.

Зачем нужна новая аудиомодель

Голосовые интерфейсы долгое время оставались слабым звеном AI-ассистентов. Классическая схема «речь → текст → обработка → текст → речь» добавляла задержку и теряла интонационные нюансы. Gemini 3.1 Flash Live работает иначе: модель нативно обрабатывает аудио, минуя промежуточное преобразование в текст. Это даёт два ключевых преимущества — низкую задержку и понимание тона.

ℹ Что значит 'native audio'?

В отличие от каскадных систем (ASR → LLM → TTS), нативная аудиомодель принимает звук на входе и генерирует звук на выходе напрямую. Это позволяет сохранять просодику — ритм, паузы, интонации — и реагировать на них в реальном времени.


graph LR
    A["🎙 Голос пользователя"] --> B["Gemini 3.1 Flash Live
(native audio)"]
    B --> C["🔊 Голосовой ответ"]
    B --> D["⚙️ Вызов функций / инструментов"]
    D --> B
    style B fill:#4285F4,stroke:#333,color:#fff

Где доступна модель

Google сделала 3.1 Flash Live доступной сразу на нескольких уровнях:

Аудитория	Продукт	Статус
Разработчики	Gemini Live API через Google AI Studio	Preview
Бизнес	Gemini Enterprise for Customer Experience	Доступно
Все пользователи	Search Live и Gemini Live	200+ стран

Для обычных пользователей это означает, что голосовое общение с Google Поиском (через функцию Search Live) и с ассистентом Gemini Live стало доступно практически по всему миру — в более чем 200 странах и территориях, включая Россию. Модель поддерживает 98+ языков.

Бенчмарки: цифры говорят сами за себя

Google приводит результаты на двух профильных бенчмарках, которые оценивают не просто качество распознавания речи, а способность модели выполнять сложные задачи через голосовой интерфейс.

Бенчмарк	Что измеряет	Результат 3.1 Flash Live
ComplexFuncBench Audio	Многошаговый вызов функций с ограничениями (бронирования, цепочки действий)	90,8%
Audio MultiChallenge (Scale AI)	Сложные инструкции и рассуждения при шумах, паузах и запинках	36,1% (с «thinking»)

Результат 90,8% на ComplexFuncBench Audio означает, что модель корректно обрабатывает 9 из 10 сложных многошаговых голосовых запросов — например, бронирование перелёта с пересадкой и арендой автомобиля в одном диалоге.

💡 Что такое 'thinking' в бенчмарке?

Режим «thinking» (рассуждение) позволяет модели выделить время на внутреннюю цепочку рассуждений перед ответом — аналог Chain-of-Thought. Это повышает точность на задачах, требующих логики, но может немного увеличить задержку.

Что улучшилось по сравнению с предыдущей версией

Gemini 3.1 Flash Live пришла на смену 2.5 Flash Native Audio. Вот ключевые различия:

Параметр	2.5 Flash Native Audio	3.1 Flash Live
Понимание интонации	Базовое	Улучшенное (pitch, pace, эмоции)
Длина удержания контекста	Стандартная	В 2 раза длиннее
Скорость ответа	—	Быстрее (конкретных цифр Google не раскрыла)
Адаптация к фрустрации	Ограниченная	Динамическая подстройка тона
ComplexFuncBench Audio	Базовый показатель	90,8%

Особенно интересна адаптация к эмоциям пользователя. Если человек начинает говорить раздражённо или растерянно, модель распознаёт это и корректирует свой стиль ответа — замедляется, переходит на более простые формулировки, проявляет больше эмпатии. Для клиентских служб поддержки это критически важная функция.

Для разработчиков: голосовые агенты нового уровня

Главная ценность 3.1 Flash Live для разработчиков — возможность строить голосовых AI-агентов, которые надёжно выполняют сложные задачи. Модель поддерживает вызов функций (function calling) прямо из голосового потока, что позволяет создавать сценарии вроде:

Голосовой агент техподдержки, который параллельно проверяет статус заказа, находит ближайший сервисный центр и назначает визит — всё в одном разговоре
Голосовой помощник для разработки («vibe coding»), через который можно надиктовывать код и итерировать в реальном времени
Мультимодальный ассистент, который одновременно видит камеру пользователя и слышит его голос


flowchart TD
    A["Пользователь говорит запрос"] --> B{"Gemini 3.1 Flash Live"}
    B --> C["Понимание намерения"]
    C --> D["Вызов функции 1:
поиск рейса"]
    C --> E["Вызов функции 2:
проверка отеля"]
    D --> F["Агрегация результатов"]
    E --> F
    F --> G["Голосовой ответ
с результатами"]
    G --> H{"Уточняющий вопрос?"}
    H -- Да --> B
    H -- Нет --> I["Завершение диалога"]
    style B fill:#4285F4,stroke:#333,color:#fff

Среди компаний, уже тестирующих 3.1 Flash Live в своих процессах — Verizon (телеком-гигант), LiveKit (платформа для real-time коммуникаций) и The Home Depot (крупнейшая сеть товаров для дома в США). Все отмечают заметное улучшение естественности разговора.

📝 Пример: голосовой шопинг-ассистент

Представьте: вы звоните в службу поддержки интернет-магазина. AI-агент на базе 3.1 Flash Live понимает, что вы расстроены из-за задержки доставки, переключается на спокойный тон, находит ваш заказ, предлагает варианты компенсации и оформляет возврат — всё голосом, без переключения на оператора.

Для пользователей: быстрее и умнее

Для обычных людей обновление означает две вещи:

1. Gemini Live стал быстрее и «памятливее». Ответы приходят с меньшей задержкой, а модель удерживает нить разговора вдвое дольше. Это особенно заметно в длинных брейнштормах — теперь AI не «забывает», о чём шла речь пять минут назад.

2. Search Live стал глобальным. Функция голосового и мультимодального поиска, которая изначально была доступна только в США, теперь работает в 200+ странах. Можно навести камеру на объект, задать вопрос голосом и получить ответ в реальном времени — на своём языке.

Безопасность: водяные знаки SynthID

Все аудио, сгенерированные моделью 3.1 Flash Live, маркируются технологией SynthID — невидимым (неслышимым) водяным знаком, который встраивается прямо в звуковой поток. Это позволяет достоверно определить, что аудиозапись создана AI, и помогает бороться с дезинформацией.

⚠ Почему это важно

По мере того как голосовые модели становятся неотличимы от живой речи, растёт риск deepfake-аудио. SynthID — одна из попыток индустрии решить эту проблему на уровне инфраструктуры, а не постфактум.

Что это значит для рынка

Gemini 3.1 Flash Live — это ответ Google на растущую конкуренцию в области голосового AI. OpenAI активно развивает голосовой режим ChatGPT, а такие компании, как ElevenLabs и Hume AI, создают всё более реалистичные голосовые решения. Ставка Google — на интеграцию: модель встроена сразу в поиск, ассистента и API для разработчиков, что даёт ей масштаб, недоступный узкоспециализированным стартапам.

Голосовой интерфейс перестаёт быть «надстройкой» над текстовым AI — он становится самостоятельным модальным слоем, который понимает не только слова, но и то, как они сказаны.

Итоги

Gemini 3.1 Flash Live — значимый шаг в развитии голосового AI. Модель объединяет низкую задержку, понимание эмоций, многоязычность и надёжный вызов функций в одном продукте. Для разработчиков это возможность строить голосовых агентов, которые действительно работают в реальных условиях. Для пользователей — более естественное и полезное общение с AI в повседневных задачах.

Модель уже доступна через Gemini Live API в Google AI Studio, а для конечных пользователей — через Gemini Live и Search Live в приложении Google.

Зачем нужна новая аудиомодель

Где доступна модель

Бенчмарки: цифры говорят сами за себя

Что улучшилось по сравнению с предыдущей версией

Для разработчиков: голосовые агенты нового уровня

Для пользователей: быстрее и умнее

Безопасность: водяные знаки SynthID

Что это значит для рынка

Итоги

Источники

Похожие статьи

Google AI Ultra за $100: всё новое с I/O 2026

Google I/O 2026: эпоха агентного Gemini наступила

AI Mode от Google: год спустя — 1 млрд пользователей

Google I/O 2026: 29 главных анонсов — Gemini 3.5, Omni и агенты

Главные AI-новости Google за апрель 2026 года