Gemini 3.1 Flash TTS: выразительная AI-речь нового поколения

15 апреля 2026 года Google представила Gemini 3.1 Flash TTS — самую мощную на сегодняшний день модель синтеза речи в семействе Gemini. Она кардинально меняет правила игры: теперь разработчики, предприятия и обычные пользователи получают беспрецедентный уровень контроля над тем, как звучит искусственный голос.

Синтез речи перестаёт быть «чёрным ящиком» — теперь вы режиссёр, а не просто наблюдатель.

Где уже доступна модель

Google выпустила Gemini 3.1 Flash TTS 15 апреля 2026 года, открыв доступ к своей самой выразительной TTS-модели для разработчиков через Gemini API и Google AI Studio, корпоративных клиентов — через Vertex AI, а пользователей Google Workspace — через Google Vids.

ℹ Платформы доступа
  • Разработчики: Gemini API и Google AI Studio (предпросмотр)
  • Корпоративные клиенты: Vertex AI (предпросмотр)
  • Пользователи Workspace: Google Vids

Качество речи: что говорят независимые тесты

На лидерборде Artificial Analysis TTS, который формируется на основе тысяч слепых предпочтений живых людей, модель 3.1 Flash TTS набрала впечатляющий Elo-рейтинг 1 211, а сам Artificial Analysis поместил её в «наиболее привлекательный квадрант» за идеальное сочетание высокого качества генерации речи и низкой стоимости.

На лидерборде Artificial Analysis, где модели ранжируются по результатам слепых прослушиваний тысяч добровольцев, Gemini 3.1 Flash TTS занимает второе место в мире с Elo-рейтингом 1 211. Первое место удерживает Inworld TTS 1.5 Max с 1 215 баллами, ElevenLabs Eleven v3 — на третьей строчке с 1 179.

По оценкам независимых аналитиков, Gemini 3.1 Flash TTS обеспечивает качество уровня топ-1 при стоимости около $30 за миллион символов — примерно в 5 раз дешевле, чем ElevenLabs v3 сопоставимого качества.

Модель также выделяется встроенным многоголосным диалогом, поддержкой более 70 языков и детальным творческим управлением через естественный язык.

Революция аудиотегов: вы — режиссёр

Самое значимое нововведение — система audio tags (аудиотегов). Прежде TTS-системы работали как «чёрный ящик»: вы давали им текст и получали аудиофайл, а где именно расставить акценты или эмоции — решала сама модель.

Новая TTS-модель открывает высокий уровень управляемости, позволяя управлять подачей с помощью более 200 аудиотегов.

Формула проста: [тег темпа] + произносимый текст + [экспрессивный тег] + произносимый текст + [тег паузы] + произносимый текст. Все встроенные теги заключаются в квадратные скобки — например, [whispers] или [happy].

📝 Примеры аудиотегов

Вы можете использовать теги прямо в тексте:

[enthusiasm] Добро пожаловать на борт! [pause] Сегодня мы покажем вам нечто особенное. [whispers] Только между нами...

Теги пишутся на английском языке, но работают с текстом на любом из 70+ поддерживаемых языков.

Модель способна воспроизводить реалистичные невербальные звуки — вы можете вставить теги вроде [laughs] или [whispers], чтобы добавить фактуру к аудиовыходу.

Режим «режиссёрского кресла» в Google AI Studio

Google AI Studio поддерживает режиссёрский интерфейс, где можно задать сцену, назначить персонажей с индивидуальными аудиопрофилями и прописать заметки для каждого голоса по темпу, тону и акценту. Когда всё звучит правильно, весь набор настроек экспортируется в готовый API-код.

По сути, Google превращает разработчика из технического исполнителя в творческого продюсера:

  • Scene direction (Режиссура сцены): задаёте окружение и конкретные инструкции для диалога — персонажи остаются «в образе» на протяжении всей беседы.
  • Speaker-level specificity (Настройка на уровне спикера): назначаете уникальные Audio Profiles персонажам, добавляете Director’s Notes для переключения темпа, тона и акцента.
  • Inline tags (Встроенные теги): позволяют менять эмоциональную окраску прямо в середине фразы.
  • Seamless export (Бесшовный экспорт): готовые параметры экспортируются в виде кода Gemini API, обеспечивая стабильное звучание одних и тех же голосов в разных проектах и на разных платформах.

Многоголосный диалог без лишних API-вызовов

Традиционные TTS-конвейеры нередко требуют отдельных API-запросов для каждого голоса, что приводит к несвязной подаче. Обрабатывая нескольких спикеров нативно, модель сохраняет более естественный разговорный ритм — это особенно полезно при создании подкастов, драматических сценариев или интерфейсов с совместными ассистентами.

Поддерживается до двух спикеров с независимой настройкой голоса и стиля для каждого; аудиовыход — PCM 24 кГц / 16-бит моно.

Глобальный охват: 70+ языков

Gemini 3.1 Flash TTS обеспечивает высококачественную речь и более точный контроль на более чем 70 языках. Ключевые оптимизации дают расширенный контроль стиля, темпа и акцента на крупных рынках — помогая разработчикам создавать локализованные, выразительные голосовые интерфейсы в глобальном масштабе.

Для английского языка доступны акценты American Valley, Southern, несколько британских вариантов — в том числе Brixton и RP, — а также Transatlantic.

💡 Важно для локализации
Аудиотеги пишутся только на английском, но прекрасно работают с текстом на любом поддерживаемом языке — включая русский. Всегда проверяйте результат с носителем языка при высокоответственной локализации.

SynthID: невидимый водяной знак

Всё аудио, сгенерированное Gemini 3.1 Flash TTS, маркируется водяным знаком SynthID. Этот незаметный на слух водяной знак вплетается непосредственно в аудиовыход, позволяя надёжно обнаруживать AI-сгенерированный контент и предотвращать дезинформацию.

Реализация SynthID преследует две цели: незаметность — водяной знак не ухудшает слуховое восприятие аудио; надёжное обнаружение — водяной знак позволяет идентифицировать AI-сгенерированный контент, помогая бороться с дезинформацией и обеспечивая прозрачность цифровых экосистем.

⚠ Что нужно знать о SynthID
Водяной знак SynthID присутствует во всём аудио, сгенерированном моделью — его нельзя отключить. Для большинства применений это безусловный плюс, однако если ваш сценарий требует неотслеживаемого AI-аудио — стоит учесть этот факт заранее.

Сравнение с конкурентами

ПараметрGemini 3.1 Flash TTSElevenLabs v3Azure Neural TTSAmazon Polly
Elo (Artificial Analysis)1 211 (#2)1 179 (#3)
Аудиотеги200+ (естественный язык)ОграниченноSSML (XML)Нет
Кол-во языков70+~32140+60+
Нативный мультиспикер
SynthID-маркировка
Стоимость~$30/1M символов~$150/1M символовСредняяНизкая

По ключевым параметрам Gemini побеждает на фронте гранулярности аудиотегов (200+ против ограниченных инструментов), нативного многоголосного диалога, широты языкового охвата (70+ против ~32) и интеграции с экосистемой Google.

Схема работы модели


graph TD
    A[Текст с аудиотегами] --> B[Gemini 3.1 Flash TTS]
    B --> C{Обработка}
    C --> D[Анализ аудиотегов]
    C --> E[Языковая модель]
    D --> F[Генерация аудио]
    E --> F
    F --> G[SynthID-маркировка]
    G --> H[PCM 24 кГц / 16-bit]
    H --> I[Экспорт / API]

Как начать работу

Модель доступна для бесплатного тестирования в Google AI Studio; доступ через API тарифицируется по символам по стандартным ценам Flash.

  1. Перейдите на Google AI Studio
  2. Выберите модель gemini-3.1-flash-tts-preview в выпадающем меню
  3. Вставьте текст с аудиотегами в квадратных скобках
  4. Прослушайте результат и скорректируйте теги
  5. Экспортируйте готовую конфигурацию как код Gemini API
import google.generativeai as genai

client = genai.Client(api_key="ВАШ_API_КЛЮЧ")

response = client.models.generate_content(
    model="gemini-3.1-flash-tts-preview",
    contents="[enthusiasm] Привет! [pause] Сегодня мы расскажем о чём-то важном. [whispers] Только между нами.",
    config={
        "response_modalities": ["AUDIO"],
        "speech_config": {
            "voice_config": {
                "prebuilt_voice_config": {"voice_name": "Kore"}
            }
        }
    }
)
💡 Советы разработчику
  • Не размещайте два тега подряд без текста или знака препинания между ними — это может вызвать ошибку.
  • Теги акцентов задаются через style-промпты, а не через настройку языка.
  • Все 30 предустановленных голосов можно прослушать прямо в библиотеке голосов Google AI Studio — ещё до написания кода.

Для каких задач подходит

Модель идеально подходит для аудиокниг, озвучки, IVR-систем, инструментов доступности и AI-нарративного контента. Более 200 аудиотегов делают Gemini 3.1 Flash TTS особенно привлекательным для производства аудиокниг, дублирования видео и разговорных агентов, где эмоциональный диапазон важнее чистой естественности.

Gemini 3.1 Flash TTS обеспечивает высококонтекстный, чёткий звук для людей, которые пользуются экранными дикторами или устройствами дополненной и альтернативной коммуникации.

Итог

В целом Gemini 3.1 Flash TTS знаменует переход к более «авторскому» подходу в аудио-AI: сочетая высокие результаты на бенчмарках с детализированным управлением через естественный язык, команда Google AI предоставляет инструменты для создания голосовых интерфейсов, которые ощущаются не как синтетический вывод, а как направленное исполнение.

Если вы разрабатываете голосовые приложения, аудиоконтент или интерфейсы на русском языке — Gemini 3.1 Flash TTS уже сегодня заслуживает того, чтобы его попробовать.