
Gemini 3.1 Flash TTS: выразительная AI-речь нового поколения
Google запустила Gemini 3.1 Flash TTS — модель синтеза речи с 200+ аудиотегами, поддержкой 70+ языков и Elo 1211 на независимом бенчмарке.
Gemini 3.1 Flash TTS: выразительная AI-речь нового поколения
15 апреля 2026 года Google представила Gemini 3.1 Flash TTS — самую мощную на сегодняшний день модель синтеза речи в семействе Gemini. Она кардинально меняет правила игры: теперь разработчики, предприятия и обычные пользователи получают беспрецедентный уровень контроля над тем, как звучит искусственный голос.
Синтез речи перестаёт быть «чёрным ящиком» — теперь вы режиссёр, а не просто наблюдатель.
Где уже доступна модель
Google выпустила Gemini 3.1 Flash TTS 15 апреля 2026 года, открыв доступ к своей самой выразительной TTS-модели для разработчиков через Gemini API и Google AI Studio, корпоративных клиентов — через Vertex AI, а пользователей Google Workspace — через Google Vids.
- Разработчики: Gemini API и Google AI Studio (предпросмотр)
- Корпоративные клиенты: Vertex AI (предпросмотр)
- Пользователи Workspace: Google Vids
Качество речи: что говорят независимые тесты
На лидерборде Artificial Analysis TTS, который формируется на основе тысяч слепых предпочтений живых людей, модель 3.1 Flash TTS набрала впечатляющий Elo-рейтинг 1 211, а сам Artificial Analysis поместил её в «наиболее привлекательный квадрант» за идеальное сочетание высокого качества генерации речи и низкой стоимости.
На лидерборде Artificial Analysis, где модели ранжируются по результатам слепых прослушиваний тысяч добровольцев, Gemini 3.1 Flash TTS занимает второе место в мире с Elo-рейтингом 1 211. Первое место удерживает Inworld TTS 1.5 Max с 1 215 баллами, ElevenLabs Eleven v3 — на третьей строчке с 1 179.
По оценкам независимых аналитиков, Gemini 3.1 Flash TTS обеспечивает качество уровня топ-1 при стоимости около $30 за миллион символов — примерно в 5 раз дешевле, чем ElevenLabs v3 сопоставимого качества.
Модель также выделяется встроенным многоголосным диалогом, поддержкой более 70 языков и детальным творческим управлением через естественный язык.
Революция аудиотегов: вы — режиссёр
Самое значимое нововведение — система audio tags (аудиотегов). Прежде TTS-системы работали как «чёрный ящик»: вы давали им текст и получали аудиофайл, а где именно расставить акценты или эмоции — решала сама модель.
Новая TTS-модель открывает высокий уровень управляемости, позволяя управлять подачей с помощью более 200 аудиотегов.
Формула проста: [тег темпа] + произносимый текст + [экспрессивный тег] + произносимый текст + [тег паузы] + произносимый текст. Все встроенные теги заключаются в квадратные скобки — например, [whispers] или [happy].
Вы можете использовать теги прямо в тексте:
[enthusiasm] Добро пожаловать на борт! [pause] Сегодня мы покажем вам нечто особенное. [whispers] Только между нами...
Теги пишутся на английском языке, но работают с текстом на любом из 70+ поддерживаемых языков.
Модель способна воспроизводить реалистичные невербальные звуки — вы можете вставить теги вроде [laughs] или [whispers], чтобы добавить фактуру к аудиовыходу.
Режим «режиссёрского кресла» в Google AI Studio
Google AI Studio поддерживает режиссёрский интерфейс, где можно задать сцену, назначить персонажей с индивидуальными аудиопрофилями и прописать заметки для каждого голоса по темпу, тону и акценту. Когда всё звучит правильно, весь набор настроек экспортируется в готовый API-код.
По сути, Google превращает разработчика из технического исполнителя в творческого продюсера:
- Scene direction (Режиссура сцены): задаёте окружение и конкретные инструкции для диалога — персонажи остаются «в образе» на протяжении всей беседы.
- Speaker-level specificity (Настройка на уровне спикера): назначаете уникальные Audio Profiles персонажам, добавляете Director’s Notes для переключения темпа, тона и акцента.
- Inline tags (Встроенные теги): позволяют менять эмоциональную окраску прямо в середине фразы.
- Seamless export (Бесшовный экспорт): готовые параметры экспортируются в виде кода Gemini API, обеспечивая стабильное звучание одних и тех же голосов в разных проектах и на разных платформах.
Многоголосный диалог без лишних API-вызовов
Традиционные TTS-конвейеры нередко требуют отдельных API-запросов для каждого голоса, что приводит к несвязной подаче. Обрабатывая нескольких спикеров нативно, модель сохраняет более естественный разговорный ритм — это особенно полезно при создании подкастов, драматических сценариев или интерфейсов с совместными ассистентами.
Поддерживается до двух спикеров с независимой настройкой голоса и стиля для каждого; аудиовыход — PCM 24 кГц / 16-бит моно.
Глобальный охват: 70+ языков
Gemini 3.1 Flash TTS обеспечивает высококачественную речь и более точный контроль на более чем 70 языках. Ключевые оптимизации дают расширенный контроль стиля, темпа и акцента на крупных рынках — помогая разработчикам создавать локализованные, выразительные голосовые интерфейсы в глобальном масштабе.
Для английского языка доступны акценты American Valley, Southern, несколько британских вариантов — в том числе Brixton и RP, — а также Transatlantic.
SynthID: невидимый водяной знак
Всё аудио, сгенерированное Gemini 3.1 Flash TTS, маркируется водяным знаком SynthID. Этот незаметный на слух водяной знак вплетается непосредственно в аудиовыход, позволяя надёжно обнаруживать AI-сгенерированный контент и предотвращать дезинформацию.
Реализация SynthID преследует две цели: незаметность — водяной знак не ухудшает слуховое восприятие аудио; надёжное обнаружение — водяной знак позволяет идентифицировать AI-сгенерированный контент, помогая бороться с дезинформацией и обеспечивая прозрачность цифровых экосистем.
Сравнение с конкурентами
| Параметр | Gemini 3.1 Flash TTS | ElevenLabs v3 | Azure Neural TTS | Amazon Polly |
|---|---|---|---|---|
| Elo (Artificial Analysis) | 1 211 (#2) | 1 179 (#3) | — | — |
| Аудиотеги | 200+ (естественный язык) | Ограниченно | SSML (XML) | Нет |
| Кол-во языков | 70+ | ~32 | 140+ | 60+ |
| Нативный мультиспикер | ✅ | ❌ | ❌ | ❌ |
| SynthID-маркировка | ✅ | ❌ | ❌ | ❌ |
| Стоимость | ~$30/1M символов | ~$150/1M символов | Средняя | Низкая |
По ключевым параметрам Gemini побеждает на фронте гранулярности аудиотегов (200+ против ограниченных инструментов), нативного многоголосного диалога, широты языкового охвата (70+ против ~32) и интеграции с экосистемой Google.
Схема работы модели
graph TD
A[Текст с аудиотегами] --> B[Gemini 3.1 Flash TTS]
B --> C{Обработка}
C --> D[Анализ аудиотегов]
C --> E[Языковая модель]
D --> F[Генерация аудио]
E --> F
F --> G[SynthID-маркировка]
G --> H[PCM 24 кГц / 16-bit]
H --> I[Экспорт / API]
Как начать работу
Модель доступна для бесплатного тестирования в Google AI Studio; доступ через API тарифицируется по символам по стандартным ценам Flash.
- Перейдите на Google AI Studio
- Выберите модель
gemini-3.1-flash-tts-previewв выпадающем меню - Вставьте текст с аудиотегами в квадратных скобках
- Прослушайте результат и скорректируйте теги
- Экспортируйте готовую конфигурацию как код Gemini API
import google.generativeai as genai
client = genai.Client(api_key="ВАШ_API_КЛЮЧ")
response = client.models.generate_content(
model="gemini-3.1-flash-tts-preview",
contents="[enthusiasm] Привет! [pause] Сегодня мы расскажем о чём-то важном. [whispers] Только между нами.",
config={
"response_modalities": ["AUDIO"],
"speech_config": {
"voice_config": {
"prebuilt_voice_config": {"voice_name": "Kore"}
}
}
}
)
- Не размещайте два тега подряд без текста или знака препинания между ними — это может вызвать ошибку.
- Теги акцентов задаются через style-промпты, а не через настройку языка.
- Все 30 предустановленных голосов можно прослушать прямо в библиотеке голосов Google AI Studio — ещё до написания кода.
Для каких задач подходит
Модель идеально подходит для аудиокниг, озвучки, IVR-систем, инструментов доступности и AI-нарративного контента. Более 200 аудиотегов делают Gemini 3.1 Flash TTS особенно привлекательным для производства аудиокниг, дублирования видео и разговорных агентов, где эмоциональный диапазон важнее чистой естественности.
Gemini 3.1 Flash TTS обеспечивает высококонтекстный, чёткий звук для людей, которые пользуются экранными дикторами или устройствами дополненной и альтернативной коммуникации.
Итог
В целом Gemini 3.1 Flash TTS знаменует переход к более «авторскому» подходу в аудио-AI: сочетая высокие результаты на бенчмарках с детализированным управлением через естественный язык, команда Google AI предоставляет инструменты для создания голосовых интерфейсов, которые ощущаются не как синтетический вывод, а как направленное исполнение.
Если вы разрабатываете голосовые приложения, аудиоконтент или интерфейсы на русском языке — Gemini 3.1 Flash TTS уже сегодня заслуживает того, чтобы его попробовать.