FunASR: промышленный ASR-тулкит со скоростью 170x
Обзор FunASR — open-source тулкита для распознавания речи: 170x real-time, 50+ языков, диаризация, эмоции, стриминг и OpenAI-совместимый API.
FunASR: промышленный ASR-тулкит со скоростью 170x realtime
«FunASR models run on CPU faster than Whisper runs on GPU» — именно так авторы описывают ключевое преимущество своего проекта.
Что это такое и для кого
FunASR — это фундаментальный тулкит для распознавания речи, предлагающий широкий набор возможностей: ASR, обнаружение голосовой активности (VAD), восстановление пунктуации, языковые модели, верификацию говорящего, диаризацию и многоканальное распознавание речи.
FunASR предоставляет удобные скрипты и туториалы для инференса и файн-тюнинга предобученных моделей. На ModelScope и HuggingFace опубликована большая коллекция промышленных предобученных моделей, доступных через Model Zoo.
Для кого подойдёт FunASR:
- Backend-разработчики, которым нужен self-hosted ASR без привязки к облаку
- Data-инженеры для транскрибации больших аудиоархивов (встречи, подкасты, колл-центры)
- ML-исследователи для файн-тюнинга ASR-моделей на доменных данных
- Разработчики AI-агентов — через MCP Server или OpenAI-совместимый API
- Компании в Азии — особенно работающие с китайским, кантонским, японским и корейским языками
pip install funasr. Никаких платных планов нет — весь стек запускается локально.Ключевые возможности
1. Экстремальная скорость инференса
FunASR позиционируется как промышленный инструмент: 170x real-time, поддержка 50+ языков, диаризация говорящих, определение эмоций, стриминг и OpenAI-совместимый API.
Ключевой вывод из бенчмарков: модели FunASR на CPU работают быстрее, чем Whisper на GPU.
2. Модельный зоопарк
В Model Zoo доступны: Fun-ASR-Nano (ASR + timestamps, 31 язык, 800M параметров), SenseVoiceSmall (ASR + эмоции + звуковые события, zh/en/ja/ko/yue, 234M), Paraformer-zh (ASR + timestamps, zh/en, 220M), Paraformer-zh-streaming (стриминг ASR), Qwen3-ASR (52 языка, 1.7B параметров).
3. SenseVoice — ASR + эмоции + аудио-события
SenseVoice — это foundation-модель для понимания речи с несколькими возможностями: автоматическое распознавание речи (ASR), идентификация языка (LID), распознавание эмоций (SER) и детектирование аудио-событий (AED). Модель фокусируется на высокоточном многоязычном ASR, распознавании эмоций в речи и детектировании звуков.
SenseVoice обучена на более чем 400 000 часах данных и поддерживает свыше 50 языков — точность распознавания превосходит Whisper.
SenseVoice-Small использует неавторегрессионную end-to-end архитектуру, что обеспечивает крайне низкую задержку инференса — для обработки 10 секунд аудио требуется всего 70 мс, что в 15 раз быстрее Whisper-Large.
Детектирование звуковых событий поддерживает такие классы, как фоновая музыка, аплодисменты, смех, плач, кашель и чихание.
4. Диаризация говорящих (Speaker Diarization)
Fun-ASR-Nano и SenseVoice теперь поддерживают диаризацию говорящих (обновление мая 2026).
В рамках одного вызова автоматически выполняются: VAD-сегментация, распознавание речи, расстановка пунктуации и диаризация говорящих.
Пример вывода с диаризацией:
[00:00.4 → 00:03.8] Speaker 0: Let's discuss the Q3 plan.
[00:04.2 → 00:07.1] Speaker 1: Sounds good. I have three points.
[00:07.5 → 00:12.3] Speaker 0: Go ahead. We have 30 minutes.
5. OpenAI-совместимый API и MCP Server
В версии v1.3.3 (май 2026) добавлены: CLI funasr-server, OpenAI-совместимый API и MCP Server для AI-агентов.
Развернуть как API-сервер можно одной командой: funasr-server --device cuda — и получить OpenAI-совместимый endpoint на localhost:8000. Поддерживается интеграция с LangChain, Dify, AutoGen через стандартный OpenAI API.
6. Стриминговый инференс
Fun-ASR-Nano-2512 — end-to-end модель, обученная на десятках миллионов часов реальных речевых данных, поддерживающая низколатентную транскрибацию в реальном времени и охватывающая 31 язык.
7. Файн-тюнинг и экспорт
Предоставляются удобные скрипты файн-тюнинга, позволяющие легко справляться с задачами long-tail в соответствии с бизнес-сценариями.
Поддерживается экспорт в форматы ONNX и libtorch, а также Python-рантаймы для продакшн-деплоя.
Архитектура пайплайна
graph LR
A[Аудио/Микрофон] --> B[VAD\nfsmn-vad]
B --> C[ASR\nParaformer / SenseVoice / Qwen3-ASR]
C --> D[Пунктуация\nct-punc]
C --> E[Диаризация\ncam++]
C --> F[Эмоции\nemotion2vec]
D --> G[Структурированный\nтекст с таймстампами]
E --> G
F --> G
G --> H[OpenAI API /\nMCP Server]
Быстрый старт
# Установка
pip install funasr
# Запуск API-сервера
funasr-server --device cuda
from funasr import AutoModel
# Полный пайплайн: VAD + ASR + пунктуация + диаризация
model = AutoModel(
model="paraformer-zh",
vad_model="fsmn-vad",
punc_model="ct-punc",
spk_model="cam++",
device="cuda"
)
result = model.generate(
input="meeting.wav",
hotword="ключевые слова"
)
from funasr import AutoModel
# Мультиязычная модель с поддержкой 31 языка
model = AutoModel(
model="FunAudioLLM/Fun-ASR-Nano-2512",
hub="hf",
trust_remote_code=True,
vad_model="fsmn-vad",
device="cuda"
)
result = model.generate(input="audio.wav", batch_size=1)
base_url в OpenAI SDK. Никаких изменений кода не требуется.Поддерживаемые модели (таблица)
| Модель | Задача | Языки | Параметры |
|---|---|---|---|
| Fun-ASR-Nano | ASR + timestamps | 31 | 800M |
| SenseVoiceSmall | ASR + эмоции + AED | zh/en/ja/ko/yue | 234M |
| Paraformer-zh | ASR + timestamps | zh/en | 220M |
| Paraformer-zh-streaming | Стриминг ASR | zh/en | 220M |
| Qwen3-ASR | ASR, 52 языка | Multilingual | 1.7B |
| Whisper-large-v3-turbo | ASR + перевод | 99 языков | ~800M |
Тарифы и лицензия
FunASR — полностью бесплатный open-source проект. Никаких облачных тарифов, API-ключей или ограничений по объёму не существует.
| Параметр | Значение |
|---|---|
| Лицензия | MIT / Apache 2.0 |
| Стоимость | Бесплатно |
| Облачный сервис | Нет (только self-hosted) |
| Коммерческое использование | Разрешено |
| Требования | Python ≥ 3.8, PyTorch ≥ 1.13 |
Плюсы и минусы
| ✅ Плюсы | ❌ Минусы |
|---|---|
| Полностью бесплатный и open-source | Требует настройки сервера для деплоя |
| 170x realtime на GPU, быстрее Whisper-GPU даже на CPU | Документация преимущественно на китайском |
| OpenAI-совместимый API (замена без кода) | Основные сильные стороны — китайский/азиатские языки |
| Speaker diarization «из коробки» | Большой размер некоторых моделей (800M–1.7B) |
| Детектирование эмоций и звуков (SER/AED) | Whisper-large лучше для редких европейских языков |
| MCP Server для AI-агентов (Claude, Cursor) | Сложный зоопарк моделей — не очевидно, какую выбрать |
| Файн-тюнинг предобученных моделей | Требуется минимум PyTorch 1.13 и torchaudio |
| Docker-деплой и Kubernetes-шаблоны | Меньше community-поддержки, чем у Whisper |
Сравнение с альтернативами
| Параметр | FunASR | faster-whisper | OpenAI Whisper API |
|---|---|---|---|
| Стоимость | Бесплатно | Бесплатно | $0.006/мин |
| Скорость (GPU) | ~170x realtime | ~12x realtime (RTX 4070) | Облако (нет данных) |
| Диаризация | ✅ Встроена | ⚠️ Через pyannote | ❌ Нет |
| Эмоции / AED | ✅ Встроены | ❌ Нет | ❌ Нет |
| Стриминг | ✅ Да | ✅ Да | ❌ Нет |
| OpenAI-совместимый API | ✅ Да | ⚠️ Частично | ✅ Да (нативно) |
| Языки | 50+ | 99 (Whisper) | 99 (Whisper) |
| Лучший язык | Китайский/Азиатские | Английский/Европейские | Английский/Европейские |
| Файн-тюнинг | ✅ Да | ❌ Нет | ❌ Нет |
| Требует GPU | Нет (CPU работает) | Нет (CPU работает) | Нет (облако) |
| Self-hosted | ✅ Да | ✅ Да | ❌ Нет |
SenseVoice-Small использует неавторегрессионную end-to-end архитектуру с крайне низкой задержкой инференса: при схожем количестве параметров с Whisper-Small модель работает более чем в 5 раз быстрее Whisper-Small и в 15 раз быстрее Whisper-Large.
Для сравнения: faster-whisper — это C++/Python порт с поддержкой Apple Metal, CUDA, Vulkan и CPU, а faster-whisper использует CTranslate2 для достижения ~4x пропускной способности оригинального Whisper на NVIDIA GPU через int8-квантование.
Интеграция с AI-агентами
funasr-server --device cuda, затем в LangChain/Dify укажите openai_api_base="http://localhost:8000/v1". FunASR будет работать как drop-in замена OpenAI Whisper API без каких-либо изменений в коде агента.# OpenAI-совместимый вызов через curl
curl http://localhost:8000/v1/audio/transcriptions \
-F file=@meeting.wav \
-F model=sensevoice \
-F response_format=verbose_json
Вердикт: кому подойдёт и рейтинг
FunASR — выбор №1 если вы:
- Работаете с китайским, японским, корейским, кантонским языками
- Строите колл-центр, систему транскрибации встреч или анализа эмоций
- Хотите self-hosted замену OpenAI Whisper API без затрат на облако
- Интегрируете речь в AI-агентов (Claude, Cursor, AutoGen, Dify)
- Нуждаетесь в диаризации и эмоциях «из коробки»
Выберите faster-whisper / WhisperX, если:
- Приоритет — европейские языки и английский
- Важна минимальная настройка без зоопарка моделей
- Нужна поддержка Apple Silicon (Metal)
Итоговый рейтинг
| Критерий | Оценка |
|---|---|
| Скорость инференса | ⭐⭐⭐⭐⭐ 10/10 |
| Качество для азиатских языков | ⭐⭐⭐⭐⭐ 9/10 |
| Качество для европейских языков | ⭐⭐⭐ 7/10 |
| Простота установки | ⭐⭐⭐⭐ 8/10 |
| Экосистема и интеграции | ⭐⭐⭐⭐ 8/10 |
| Документация | ⭐⭐⭐ 6/10 |
| Общий рейтинг | ⭐⭐⭐⭐ 8.5/10 |
FunASR — один из самых технически продвинутых open-source ASR-тулкитов 2025–2026 года. Экстремальная скорость, встроенные диаризация и детектирование эмоций, OpenAI-совместимый API и поддержка AI-агентов делают его незаменимым инструментом для production-деплоя — особенно при работе с азиатскими языками.