Три новых голосовых модели OpenAI: рассуждение, перевод и транскрипция в реальном времени

7 мая 2026 года OpenAI анонсировала очередной шаг в развитии голосового AI. Компания представила новое поколение realtime-моделей (моделей реального времени), способных рассуждать, переводить и транскрибировать речь прямо во время разговора. Всего в API добавлены три аудиомодели, открывающие разработчикам принципиально новый класс голосовых приложений.

Голосовые интерфейсы переходят от простого «вопрос–ответ» к системам, которые способны слушать, анализировать, переводить, транскрибировать и действовать по ходу разговора.

Что за модели выпустила OpenAI?

Разработчики получают доступ к трём новым инструментам:

  • GPT‑Realtime‑2 — первая голосовая модель с рассуждениями уровня GPT-5, способная справляться со сложными запросами и поддерживать беседу естественным образом.
  • GPT‑Realtime‑Translate — новая модель живого перевода, которая переводит речь с 70+ входных языков на 13 выходных, не отставая от темпа говорящего.
  • GPT‑Realtime‑Whisper — потоковое распознавание речи (speech-to-text), транскрибирующее слова прямо в момент произнесения.
ℹ Что такое Realtime API?
Realtime API (API реального времени) — программный интерфейс OpenAI для создания голосовых приложений с минимальной задержкой. В отличие от классического подхода, он обрабатывает аудио напрямую через единую модель, без цепочки «речь → текст → модель → синтез речи».

GPT‑Realtime‑2: рассуждение прямо в разговоре

GPT‑Realtime‑2 создан для живых голосовых взаимодействий: модель удерживает нить беседы, одновременно обрабатывая запрос, вызывая инструменты, реагируя на поправки и перебивания, и отвечая в соответствии с контекстом момента.

По сравнению с предшественником модель получила ряд значимых улучшений:

Управление тоном. Модель лучше адаптирует интонацию: говорит спокойно при решении проблемы, сочувственно — если пользователь расстроен, и бодро — подтверждая успешное действие.

Настраиваемый уровень рассуждения. Разработчики могут выбирать из пяти уровней рассуждения: minimal, low, medium, high и xhigh, где low установлен по умолчанию — это баланс между низкой задержкой для простых взаимодействий и более глубоким анализом для сложных запросов.

Расширенный контекст. Контекстное окно выросло с 32 000 до 128 000 токенов, что позволяет вести более длинные и связные диалоги.

Результаты на бенчмарках. На аудиобенчмарке Big Bench Audio GPT‑Realtime‑2 (high) показывает результат на 15,2% выше, чем GPT‑Realtime‑1.5. Версия xhigh на Audio MultiChallenge опережает предшественника на 13,8%, демонстрируя более сильное рассуждение, управление контекстом и контроль в живых разговорах.

💡 Совет разработчику
Для большинства production-голосовых агентов OpenAI рекомендует начинать с уровня рассуждения low — он обеспечивает низкую задержку. Повышайте уровень только для задач, требующих сложного многошагового анализа.

GPT‑Realtime‑Translate: живой переводчик на 70+ языков

GPT‑Realtime‑Translate — модель живого перевода, переводящая речь с более чем 70 входных языков на 13 выходных, не отставая от темпа говорящего.

Перевод использует специальный endpoint вместо стандартного для голосовых агентов. Сессии перевода непрерывны: клиент стримит аудио в сессию, а сервис стримит обратно переведённое аудио и фрагменты транскрипта.

Практический пример из корпоративного мира: Deutsche Telekom создаёт на базе этой модели систему поддержки клиентов, где пользователи могут говорить на удобном для них языке, а модель переводит разговор в реальном времени. Для российских компаний, работающих с международной аудиторией или партнёрами из СНГ, это открывает очевидные возможности — мультиязычная поддержка без дополнительного персонала.

GPT‑Realtime‑Whisper: транскрипция «на лету»

GPT‑Realtime‑Whisper — потоковое распознавание речи в текст, транскрибирующее слова в реальном времени по мере того, как говорит человек.

Модель делает живую речь пригодной для использования в бизнес-процессах прямо в момент произнесения. Команды могут создавать субтитры для совещаний, лекций, трансляций и мероприятий; формировать заметки и резюме, пока разговор ещё идёт; строить голосовых агентов с непрерывным пониманием пользователя; ускорять последующие рабочие процессы в клиентской поддержке, здравоохранении, продажах, рекрутинге и других сферах с высоким объёмом устных взаимодействий.

Три сценария применения голосового AI

По мере того как голос становится более естественным способом взаимодействия с программным обеспечением, разработчики выстраивают решения вокруг трёх новых паттернов голосового AI.


flowchart TD
    A[Голосовой ввод пользователя] --> B{Тип задачи}
    B -->|Действие| C[Voice-to-Action\nGPT-Realtime-2]
    B -->|Перевод| D[Voice-to-Voice\nGPT-Realtime-Translate]
    B -->|Транскрипция| E[Voice-to-Text\nGPT-Realtime-Whisper]
    C --> F[Агент рассуждает, вызывает инструменты, выполняет задачу]
    D --> G[Переводит речь в реальном времени на другой язык]
    E --> H[Создаёт текстовые субтитры и резюме]

Voice-to-Action (голос → действие). Например, Zillow создаёт ассистента, который умеет слушать, рассуждать и действовать по запросам вроде: «найди мне дома в рамках моего бюджета, избегай оживлённых улиц и запланируй просмотр на субботу».

Voice-to-Voice (голос → голос). Переводчик сохраняет нить разговора между людьми, говорящими на разных языках, без необходимости останавливаться и ждать.

Voice-to-Text (голос → текст). Непрерывная транскрипция позволяет в режиме реального времени получать документацию, резюме встреч и протоколы переговоров.

Эти паттерны могут и сочетаться. Так, Priceline работает над будущим, в котором путешественники смогут управлять всей поездкой голосом: искать рейсы и отели в разговорном режиме, обрабатывать изменения вроде корректировки бронирования после задержки рейса, получать актуальные данные об очередях в аэропорту и переводить разговоры по прибытии в страну.

Цены на новые модели

GPT‑Realtime‑2, GPT‑Realtime‑Translate и GPT‑Realtime‑Whisper доступны в Realtime API.

МодельНазначениеЦена
GPT‑Realtime‑2Голосовой агент с рассуждением$32 / 1M входных токенов аудио ($0,40 кэшированных), $64 / 1M выходных токенов
GPT‑Realtime‑TranslateЖивой перевод речи$0,034 / мин
GPT‑Realtime‑WhisperПотоковая транскрипция$0,017 / мин

GPT‑Realtime‑2 стоит $32 за 1 млн входных аудиотокенов ($0,40 для кэшированных) и $64 за 1 млн выходных токенов. GPT‑Realtime‑Translate — $0,034 за минуту. GPT‑Realtime‑Whisper — $0,017 за минуту.

⚠ Обратите внимание
Цена GPT‑Realtime‑2 рассчитывается в аудиотокенах, а не в минутах. Это важно учитывать при планировании бюджета: длина фраз, паузы и скорость речи будут влиять на итоговую стоимость.

Как устроена архитектура Realtime API

В отличие от традиционных конвейеров, объединяющих несколько моделей — распознавание речи, обработку текста и синтез голоса — Realtime API обрабатывает и генерирует аудио напрямую через единую модель и единый API. Это снижает задержку, сохраняет нюансы речи и создаёт более естественные, выразительные ответы.

Пример кода для быстрого старта с GPT‑Realtime‑2 через WebSocket:

import asyncio
import websockets
import json

async def realtime_voice_session():
    url = "wss://api.openai.com/v1/realtime?model=gpt-realtime-2"
    headers = {
        "Authorization": "Bearer YOUR_API_KEY",
        "OpenAI-Beta": "realtime=v1"
    }
    
    async with websockets.connect(url, extra_headers=headers) as ws:
        # Настройка сессии
        session_config = {
            "type": "session.update",
            "session": {
                "modalities": ["audio", "text"],
                "voice": "alloy",
                "input_audio_format": "pcm16",
                "output_audio_format": "pcm16",
                # Уровень рассуждения: minimal, low, medium, high, xhigh
                "reasoning_effort": "low"
            }
        }
        await ws.send(json.dumps(session_config))
        print("Сессия голосового агента запущена!")

asyncio.run(realtime_voice_session())

Безопасность и ограничения

Realtime API включает несколько уровней защиты от злоупотреблений. Активные классификаторы мониторят сессии в реальном времени: определённые разговоры могут быть остановлены при обнаружении нарушения правил о запрещённом контенте.

Разработчики также могут легко добавлять собственные дополнительные фильтры безопасности с помощью Agents SDK. Политики использования OpenAI запрещают перепрофилирование или распространение результатов работы сервисов для спама, обмана и других вредоносных целей.

📝 Реальный кейс
Zillow использует GPT‑Realtime‑2 для создания ассистента по поиску недвижимости, который понимает сложные запросы: «найди дома в рамках моего бюджета BuyAbility, подальше от шумных улиц, и запланируй просмотр на субботу». Модель анализирует запрос, применяет инструменты поиска и отвечает голосом — всё в режиме реального времени.

Как начать работу

Протестировать новые голосовые модели можно в OpenAI Playground. Для начала разработки можно открыть готовый промпт в Codex, чтобы добавить GPT‑Realtime‑2 в существующее приложение или создать новое.

Для разработчиков, уже работающих с текстовыми моделями, подключение speech-to-text и text-to-speech моделей — самый простой способ добавить голосового агента. OpenAI выпустила интеграцию с Agents SDK, упрощающую этот процесс.

Итог

Создание полезных голосовых продуктов требует большего, чем быстрый обмен репликами или естественно звучащий голос. Голосовой агент должен понимать смысл сказанного, отслеживать контекст, восстанавливаться при изменении запроса, использовать инструменты в ходе разговора и отвечать так, чтобы это соответствовало ситуации. Вместе выпущенные модели переводят голосовое взаимодействие от простого вызов-ответ к голосовым интерфейсам, способным реально работать: слушать, рассуждать, переводить, транскрибировать и действовать по ходу разговора.

В ближайшие месяцы OpenAI обещает продолжить инвестиции в развитие аудиомоделей — в том числе планируется продолжать улучшать интеллект и точность аудиомоделей, а также исследовать возможности для разработчиков по использованию собственных голосов для создания персонализированных опытов в соответствии со стандартами безопасности.