OpenAI Whisper: распознавание речи на 99 языках с открытым кодом

OpenAI открыла доступ к Whisper — универсальной модели для распознавания речи, которая умеет транскрибировать аудио на 99 языках, переводить речь в текст и определять язык говорящего. Всё это в одной модели с открытым исходным кодом и MIT-лицензией. Последнее поколение — Whisper Large V3 Turbo — работает в 8 раз быстрее предшественника при минимальной потере точности.

Что такое Whisper

Whisper — это система автоматического распознавания речи (ASR), обученная на 680 000 часах многоязычных и многозадачных данных, собранных из интернета. Использование такого большого и разнообразного датасета улучшает устойчивость к акцентам, фоновому шуму и техническому жаргону, а также позволяет транскрибировать аудио на множестве языков и переводить речь на английский.

В основе — Transformer-модель типа sequence-to-sequence, обученная на множестве задач: многоязычное распознавание речи, перевод, определение языка и детекция голосовой активности. Все задачи представлены единым потоком токенов, что позволяет одной модели заменить сразу несколько этапов традиционного pipeline обработки речи.

ℹ Архитектура

Внутри Whisper обрабатывает аудио скользящими окнами по 30 секунд, конвертируя каждый фрагмент в log-Mel спектрограмму (математическое представление звука), а затем передаёт его через энкодер-декодер Transformer.

Линейка моделей: от tiny до turbo

Whisper — это целое семейство моделей: размер, язык и качество аудио существенно влияют на точность. Доступны размеры от Tiny (39 млн параметров) до Large-v3 (1,5 млрд).

Модель	Параметров	Только EN	Многоязычная	VRAM	Скорость
tiny	39 M	tiny.en	tiny	~1 GB	~10x
base	74 M	base.en	base	~1 GB	~7x
small	244 M	small.en	small	~2 GB	~4x
medium	769 M	medium.en	medium	~5 GB	~2x
large	1 550 M	—	large	~10 GB	1x
turbo	809 M	—	turbo	~6 GB	~8x

Turbo — оптимальный выбор для большинства задач: скорость большой модели при точности, сопоставимой с large-v2.

Что такое Whisper Turbo

Whisper Large V3 Turbo — последняя на момент написания модель Whisper, выпущенная OpenAI в октябре 2024 года. Она сохраняет точность модели Large V2, но значительно увеличивает скорость обработки.

Whisper large-v3-turbo — это дообученная версия «обрезанного» Whisper large-v3: та же архитектура, но количество слоёв декодера сокращено с 32 до 4, что делает модель значительно быстрее ценой незначительного снижения качества.

Идея вдохновлена проектом Distil-Whisper, авторы которого установили, что уменьшенный декодер существенно ускоряет транскрипцию при минимальной потере точности. В отличие от дистилляции, Whisper Turbo дообучался ещё два эпохи на тех же данных, что использовались для large-v3.

⚠ Ограничение Turbo

Модель Turbo не обучена для задач перевода. Если нужно переводить речь с других языков на английский — используйте medium или large. Turbo вернёт текст на исходном языке даже при флаге --task translate.

Точность и сравнение

Whisper Large-v3 достигает 2,7% WER (word error rate — процент ошибочно распознанных слов) на чистом аудио, и 8–12% в реальных условиях.

На английском языке Whisper достигает 5–6% WER, опережая Microsoft Azure и Google Speech-to-Text на тестах с записями совещаний. Точность падает для сложных языков и шумных условий, например в колл-центрах.

Несмотря на наличие конкурентов, Whisper остаётся наиболее широко применяемой open-source ASR-моделью благодаря зрелой экосистеме, охвату языков и доступности оптимизированных рантаймов вроде whisper.cpp.

Как работает пайплайн


graph TD
    A[Аудио файл\nMP3 / WAV / FLAC] --> B[Разбивка на 30-сек чанки]
    B --> C[log-Mel спектрограмма]
    C --> D[Transformer Encoder]
    D --> E[Transformer Decoder]
    E --> F{Задача}
    F -->|Транскрипция| G[Текст на исходном языке]
    F -->|Перевод| H[Текст на английском]
    F -->|Идентификация| I[Определение языка]

Быстрый старт

Установка

# Установка через pip
pip install -U openai-whisper

# Также нужен ffmpeg
# Ubuntu/Debian:
sudo apt update && sudo apt install ffmpeg
# MacOS:
brew install ffmpeg
# Windows (Chocolatey):
choco install ffmpeg

Использование из командной строки

# Транскрипция (модель turbo по умолчанию)
whisper audio.mp3 --model turbo

# Транскрипция на японском
whisper japanese.wav --language Japanese

# Перевод на английский (только multilingual-модели!)
whisper japanese.wav --model medium --language Japanese --task translate

Использование из Python

import whisper

model = whisper.load_model("turbo")
result = model.transcribe("audio.mp3")
print(result["text"])

💡 Совет по выбору модели

Нет GPU → tiny или base (работают на CPU, ~1 GB RAM)
Обычные задачи → turbo (лучший баланс скорости и точности)
Нужен перевод → medium или large
Максимальная точность → large-v3

Цена и лицензия

Код и веса модели Whisper опубликованы под лицензией MIT. Это означает свободное коммерческое использование, модификацию и встраивание в продукты.

После загрузки модели Whisper работает полностью локально без подключения к интернету, что делает его подходящим для приложений с повышенными требованиями к конфиденциальности, офлайн-сред и изолированных систем.

API-версия стоит $0,006 за минуту — примерно вчетверо дешевле Amazon Transcribe и вдвое дешевле Google Cloud Speech-to-Text.

Контекст и значение для отрасли

По данным Quantumrun, Large-v3 модель Whisper набирает 4,09 млн ежемесячных загрузок на Hugging Face по состоянию на декабрь 2024 года. Глобальный рынок распознавания речи достиг $8,49 млрд в том же году и, по прогнозам, вырастет до $23,11 млрд к 2030 году с темпом роста 19,1% в год.

На базе Whisper OpenAI также выпустила GPT-Realtime-Whisper — новую потоковую модель транскрипции с низкой задержкой для работы в реальном времени: она транскрибирует аудио прямо в процессе речи, что позволяет создавать более быстрые и отзывчивые продукты.

📝 Где применяется Whisper

Субтитры и подписи к видео в реальном времени
Транскрипция встреч и интервью
Голосовые ассистенты и чат-боты с речевым вводом
Медицина и юриспруденция — документирование устной речи
Доступность — помощь людям с нарушениями слуха

Whisper задал новую планку для open-source ASR: модель, обученная на масштабных слабо размеченных данных, оказалась более универсальной и устойчивой, чем узкоспециализированные системы предыдущего поколения. С выходом Turbo барьер для использования в продакшене стал ещё ниже.