FunASR: промышленный ASR-тулкит со скоростью 170x realtime

«FunASR models run on CPU faster than Whisper runs on GPU» — именно так авторы описывают ключевое преимущество своего проекта.

Что это такое и для кого

FunASR — это фундаментальный тулкит для распознавания речи, предлагающий широкий набор возможностей: ASR, обнаружение голосовой активности (VAD), восстановление пунктуации, языковые модели, верификацию говорящего, диаризацию и многоканальное распознавание речи.

FunASR предоставляет удобные скрипты и туториалы для инференса и файн-тюнинга предобученных моделей. На ModelScope и HuggingFace опубликована большая коллекция промышленных предобученных моделей, доступных через Model Zoo.

Для кого подойдёт FunASR:

Backend-разработчики, которым нужен self-hosted ASR без привязки к облаку
Data-инженеры для транскрибации больших аудиоархивов (встречи, подкасты, колл-центры)
ML-исследователи для файн-тюнинга ASR-моделей на доменных данных
Разработчики AI-агентов — через MCP Server или OpenAI-совместимый API
Компании в Азии — особенно работающие с китайским, кантонским, японским и корейским языками

ℹ Open Source & Бесплатно

FunASR полностью открыт (MIT / Apache 2.0), опубликован на GitHub и доступен через pip install funasr. Никаких платных планов нет — весь стек запускается локально.

Ключевые возможности

1. Экстремальная скорость инференса

FunASR позиционируется как промышленный инструмент: 170x real-time, поддержка 50+ языков, диаризация говорящих, определение эмоций, стриминг и OpenAI-совместимый API.

Ключевой вывод из бенчмарков: модели FunASR на CPU работают быстрее, чем Whisper на GPU.

2. Модельный зоопарк

В Model Zoo доступны: Fun-ASR-Nano (ASR + timestamps, 31 язык, 800M параметров), SenseVoiceSmall (ASR + эмоции + звуковые события, zh/en/ja/ko/yue, 234M), Paraformer-zh (ASR + timestamps, zh/en, 220M), Paraformer-zh-streaming (стриминг ASR), Qwen3-ASR (52 языка, 1.7B параметров).

3. SenseVoice — ASR + эмоции + аудио-события

SenseVoice — это foundation-модель для понимания речи с несколькими возможностями: автоматическое распознавание речи (ASR), идентификация языка (LID), распознавание эмоций (SER) и детектирование аудио-событий (AED). Модель фокусируется на высокоточном многоязычном ASR, распознавании эмоций в речи и детектировании звуков.

SenseVoice обучена на более чем 400 000 часах данных и поддерживает свыше 50 языков — точность распознавания превосходит Whisper.

SenseVoice-Small использует неавторегрессионную end-to-end архитектуру, что обеспечивает крайне низкую задержку инференса — для обработки 10 секунд аудио требуется всего 70 мс, что в 15 раз быстрее Whisper-Large.

Детектирование звуковых событий поддерживает такие классы, как фоновая музыка, аплодисменты, смех, плач, кашель и чихание.

4. Диаризация говорящих (Speaker Diarization)

Fun-ASR-Nano и SenseVoice теперь поддерживают диаризацию говорящих (обновление мая 2026).

В рамках одного вызова автоматически выполняются: VAD-сегментация, распознавание речи, расстановка пунктуации и диаризация говорящих.

Пример вывода с диаризацией:

[00:00.4 → 00:03.8] Speaker 0: Let's discuss the Q3 plan.
[00:04.2 → 00:07.1] Speaker 1: Sounds good. I have three points.
[00:07.5 → 00:12.3] Speaker 0: Go ahead. We have 30 minutes.

5. OpenAI-совместимый API и MCP Server

В версии v1.3.3 (май 2026) добавлены: CLI funasr-server, OpenAI-совместимый API и MCP Server для AI-агентов.

Развернуть как API-сервер можно одной командой: funasr-server --device cuda — и получить OpenAI-совместимый endpoint на localhost:8000. Поддерживается интеграция с LangChain, Dify, AutoGen через стандартный OpenAI API.

6. Стриминговый инференс

Fun-ASR-Nano-2512 — end-to-end модель, обученная на десятках миллионов часов реальных речевых данных, поддерживающая низколатентную транскрибацию в реальном времени и охватывающая 31 язык.

7. Файн-тюнинг и экспорт

Предоставляются удобные скрипты файн-тюнинга, позволяющие легко справляться с задачами long-tail в соответствии с бизнес-сценариями.

Поддерживается экспорт в форматы ONNX и libtorch, а также Python-рантаймы для продакшн-деплоя.

Архитектура пайплайна


graph LR
    A[Аудио/Микрофон] --> B[VAD\nfsmn-vad]
    B --> C[ASR\nParaformer / SenseVoice / Qwen3-ASR]
    C --> D[Пунктуация\nct-punc]
    C --> E[Диаризация\ncam++]
    C --> F[Эмоции\nemotion2vec]
    D --> G[Структурированный\nтекст с таймстампами]
    E --> G
    F --> G
    G --> H[OpenAI API /\nMCP Server]

Быстрый старт

# Установка
pip install funasr

# Запуск API-сервера
funasr-server --device cuda

from funasr import AutoModel

# Полный пайплайн: VAD + ASR + пунктуация + диаризация
model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    punc_model="ct-punc",
    spk_model="cam++",
    device="cuda"
)

result = model.generate(
    input="meeting.wav",
    hotword="ключевые слова"
)

from funasr import AutoModel

# Мультиязычная модель с поддержкой 31 языка
model = AutoModel(
    model="FunAudioLLM/Fun-ASR-Nano-2512",
    hub="hf",
    trust_remote_code=True,
    vad_model="fsmn-vad",
    device="cuda"
)

result = model.generate(input="audio.wav", batch_size=1)

💡 Стриминг через API

С версии v1.3.3 можно вызывать FunASR как замену OpenAI Whisper API — достаточно изменить base_url в OpenAI SDK. Никаких изменений кода не требуется.

Поддерживаемые модели (таблица)

Модель	Задача	Языки	Параметры
Fun-ASR-Nano	ASR + timestamps	31	800M
SenseVoiceSmall	ASR + эмоции + AED	zh/en/ja/ko/yue	234M
Paraformer-zh	ASR + timestamps	zh/en	220M
Paraformer-zh-streaming	Стриминг ASR	zh/en	220M
Qwen3-ASR	ASR, 52 языка	Multilingual	1.7B
Whisper-large-v3-turbo	ASR + перевод	99 языков	~800M

Тарифы и лицензия

FunASR — полностью бесплатный open-source проект. Никаких облачных тарифов, API-ключей или ограничений по объёму не существует.

Параметр	Значение
Лицензия	MIT / Apache 2.0
Стоимость	Бесплатно
Облачный сервис	Нет (только self-hosted)
Коммерческое использование	Разрешено
Требования	Python ≥ 3.8, PyTorch ≥ 1.13

⚠ Требования к железу

Для продакшн-использования с GPU нужна CUDA-совместимая карта. На CPU модели работают, но производительность ниже. Fun-ASR-Nano с vLLM даёт ускорение 2–3x по сравнению с базовым инференсом.

Плюсы и минусы

✅ Плюсы	❌ Минусы
Полностью бесплатный и open-source	Требует настройки сервера для деплоя
170x realtime на GPU, быстрее Whisper-GPU даже на CPU	Документация преимущественно на китайском
OpenAI-совместимый API (замена без кода)	Основные сильные стороны — китайский/азиатские языки
Speaker diarization «из коробки»	Большой размер некоторых моделей (800M–1.7B)
Детектирование эмоций и звуков (SER/AED)	Whisper-large лучше для редких европейских языков
MCP Server для AI-агентов (Claude, Cursor)	Сложный зоопарк моделей — не очевидно, какую выбрать
Файн-тюнинг предобученных моделей	Требуется минимум PyTorch 1.13 и torchaudio
Docker-деплой и Kubernetes-шаблоны	Меньше community-поддержки, чем у Whisper

Сравнение с альтернативами

Параметр	FunASR	faster-whisper	OpenAI Whisper API
Стоимость	Бесплатно	Бесплатно	$0.006/мин
Скорость (GPU)	~170x realtime	~12x realtime (RTX 4070)	Облако (нет данных)
Диаризация	✅ Встроена	⚠️ Через pyannote	❌ Нет
Эмоции / AED	✅ Встроены	❌ Нет	❌ Нет
Стриминг	✅ Да	✅ Да	❌ Нет
OpenAI-совместимый API	✅ Да	⚠️ Частично	✅ Да (нативно)
Языки	50+	99 (Whisper)	99 (Whisper)
Лучший язык	Китайский/Азиатские	Английский/Европейские	Английский/Европейские
Файн-тюнинг	✅ Да	❌ Нет	❌ Нет
Требует GPU	Нет (CPU работает)	Нет (CPU работает)	Нет (облако)
Self-hosted	✅ Да	✅ Да	❌ Нет

SenseVoice-Small использует неавторегрессионную end-to-end архитектуру с крайне низкой задержкой инференса: при схожем количестве параметров с Whisper-Small модель работает более чем в 5 раз быстрее Whisper-Small и в 15 раз быстрее Whisper-Large.

Для сравнения: faster-whisper — это C++/Python порт с поддержкой Apple Metal, CUDA, Vulkan и CPU, а faster-whisper использует CTranslate2 для достижения ~4x пропускной способности оригинального Whisper на NVIDIA GPU через int8-квантование.

Интеграция с AI-агентами

📝 Пример: FunASR в LangChain

Запустите funasr-server --device cuda, затем в LangChain/Dify укажите openai_api_base="http://localhost:8000/v1". FunASR будет работать как drop-in замена OpenAI Whisper API без каких-либо изменений в коде агента.

# OpenAI-совместимый вызов через curl
curl http://localhost:8000/v1/audio/transcriptions \
  -F file=@meeting.wav \
  -F model=sensevoice \
  -F response_format=verbose_json

Вердикт: кому подойдёт и рейтинг

FunASR — выбор №1 если вы:

Работаете с китайским, японским, корейским, кантонским языками
Строите колл-центр, систему транскрибации встреч или анализа эмоций
Хотите self-hosted замену OpenAI Whisper API без затрат на облако
Интегрируете речь в AI-агентов (Claude, Cursor, AutoGen, Dify)
Нуждаетесь в диаризации и эмоциях «из коробки»

Выберите faster-whisper / WhisperX, если:

Приоритет — европейские языки и английский
Важна минимальная настройка без зоопарка моделей
Нужна поддержка Apple Silicon (Metal)

Итоговый рейтинг

Критерий	Оценка
Скорость инференса	⭐⭐⭐⭐⭐ 10/10
Качество для азиатских языков	⭐⭐⭐⭐⭐ 9/10
Качество для европейских языков	⭐⭐⭐ 7/10
Простота установки	⭐⭐⭐⭐ 8/10
Экосистема и интеграции	⭐⭐⭐⭐ 8/10
Документация	⭐⭐⭐ 6/10
Общий рейтинг	⭐⭐⭐⭐ 8.5/10

FunASR — один из самых технически продвинутых open-source ASR-тулкитов 2025–2026 года. Экстремальная скорость, встроенные диаризация и детектирование эмоций, OpenAI-совместимый API и поддержка AI-агентов делают его незаменимым инструментом для production-деплоя — особенно при работе с азиатскими языками.