FunASR: промышленный ASR-тулкит со скоростью 170x realtime

«FunASR models run on CPU faster than Whisper runs on GPU» — именно так авторы описывают ключевое преимущество своего проекта.

Что это такое и для кого

FunASR — это фундаментальный тулкит для распознавания речи, предлагающий широкий набор возможностей: ASR, обнаружение голосовой активности (VAD), восстановление пунктуации, языковые модели, верификацию говорящего, диаризацию и многоканальное распознавание речи.

FunASR предоставляет удобные скрипты и туториалы для инференса и файн-тюнинга предобученных моделей. На ModelScope и HuggingFace опубликована большая коллекция промышленных предобученных моделей, доступных через Model Zoo.

Для кого подойдёт FunASR:

  • Backend-разработчики, которым нужен self-hosted ASR без привязки к облаку
  • Data-инженеры для транскрибации больших аудиоархивов (встречи, подкасты, колл-центры)
  • ML-исследователи для файн-тюнинга ASR-моделей на доменных данных
  • Разработчики AI-агентов — через MCP Server или OpenAI-совместимый API
  • Компании в Азии — особенно работающие с китайским, кантонским, японским и корейским языками
ℹ Open Source & Бесплатно
FunASR полностью открыт (MIT / Apache 2.0), опубликован на GitHub и доступен через pip install funasr. Никаких платных планов нет — весь стек запускается локально.

Ключевые возможности

1. Экстремальная скорость инференса

FunASR позиционируется как промышленный инструмент: 170x real-time, поддержка 50+ языков, диаризация говорящих, определение эмоций, стриминг и OpenAI-совместимый API.

Ключевой вывод из бенчмарков: модели FunASR на CPU работают быстрее, чем Whisper на GPU.

2. Модельный зоопарк

В Model Zoo доступны: Fun-ASR-Nano (ASR + timestamps, 31 язык, 800M параметров), SenseVoiceSmall (ASR + эмоции + звуковые события, zh/en/ja/ko/yue, 234M), Paraformer-zh (ASR + timestamps, zh/en, 220M), Paraformer-zh-streaming (стриминг ASR), Qwen3-ASR (52 языка, 1.7B параметров).

3. SenseVoice — ASR + эмоции + аудио-события

SenseVoice — это foundation-модель для понимания речи с несколькими возможностями: автоматическое распознавание речи (ASR), идентификация языка (LID), распознавание эмоций (SER) и детектирование аудио-событий (AED). Модель фокусируется на высокоточном многоязычном ASR, распознавании эмоций в речи и детектировании звуков.

SenseVoice обучена на более чем 400 000 часах данных и поддерживает свыше 50 языков — точность распознавания превосходит Whisper.

SenseVoice-Small использует неавторегрессионную end-to-end архитектуру, что обеспечивает крайне низкую задержку инференса — для обработки 10 секунд аудио требуется всего 70 мс, что в 15 раз быстрее Whisper-Large.

Детектирование звуковых событий поддерживает такие классы, как фоновая музыка, аплодисменты, смех, плач, кашель и чихание.

4. Диаризация говорящих (Speaker Diarization)

Fun-ASR-Nano и SenseVoice теперь поддерживают диаризацию говорящих (обновление мая 2026).

В рамках одного вызова автоматически выполняются: VAD-сегментация, распознавание речи, расстановка пунктуации и диаризация говорящих.

Пример вывода с диаризацией:

[00:00.4 → 00:03.8] Speaker 0: Let's discuss the Q3 plan.
[00:04.2 → 00:07.1] Speaker 1: Sounds good. I have three points.
[00:07.5 → 00:12.3] Speaker 0: Go ahead. We have 30 minutes.

5. OpenAI-совместимый API и MCP Server

В версии v1.3.3 (май 2026) добавлены: CLI funasr-server, OpenAI-совместимый API и MCP Server для AI-агентов.

Развернуть как API-сервер можно одной командой: funasr-server --device cuda — и получить OpenAI-совместимый endpoint на localhost:8000. Поддерживается интеграция с LangChain, Dify, AutoGen через стандартный OpenAI API.

6. Стриминговый инференс

Fun-ASR-Nano-2512 — end-to-end модель, обученная на десятках миллионов часов реальных речевых данных, поддерживающая низколатентную транскрибацию в реальном времени и охватывающая 31 язык.

7. Файн-тюнинг и экспорт

Предоставляются удобные скрипты файн-тюнинга, позволяющие легко справляться с задачами long-tail в соответствии с бизнес-сценариями.

Поддерживается экспорт в форматы ONNX и libtorch, а также Python-рантаймы для продакшн-деплоя.


Архитектура пайплайна


graph LR
    A[Аудио/Микрофон] --> B[VAD\nfsmn-vad]
    B --> C[ASR\nParaformer / SenseVoice / Qwen3-ASR]
    C --> D[Пунктуация\nct-punc]
    C --> E[Диаризация\ncam++]
    C --> F[Эмоции\nemotion2vec]
    D --> G[Структурированный\nтекст с таймстампами]
    E --> G
    F --> G
    G --> H[OpenAI API /\nMCP Server]


Быстрый старт

# Установка
pip install funasr

# Запуск API-сервера
funasr-server --device cuda
from funasr import AutoModel

# Полный пайплайн: VAD + ASR + пунктуация + диаризация
model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    punc_model="ct-punc",
    spk_model="cam++",
    device="cuda"
)

result = model.generate(
    input="meeting.wav",
    hotword="ключевые слова"
)
from funasr import AutoModel

# Мультиязычная модель с поддержкой 31 языка
model = AutoModel(
    model="FunAudioLLM/Fun-ASR-Nano-2512",
    hub="hf",
    trust_remote_code=True,
    vad_model="fsmn-vad",
    device="cuda"
)

result = model.generate(input="audio.wav", batch_size=1)
💡 Стриминг через API
С версии v1.3.3 можно вызывать FunASR как замену OpenAI Whisper API — достаточно изменить base_url в OpenAI SDK. Никаких изменений кода не требуется.

Поддерживаемые модели (таблица)

МодельЗадачаЯзыкиПараметры
Fun-ASR-NanoASR + timestamps31800M
SenseVoiceSmallASR + эмоции + AEDzh/en/ja/ko/yue234M
Paraformer-zhASR + timestampszh/en220M
Paraformer-zh-streamingСтриминг ASRzh/en220M
Qwen3-ASRASR, 52 языкаMultilingual1.7B
Whisper-large-v3-turboASR + перевод99 языков~800M

Тарифы и лицензия

FunASR — полностью бесплатный open-source проект. Никаких облачных тарифов, API-ключей или ограничений по объёму не существует.

ПараметрЗначение
ЛицензияMIT / Apache 2.0
СтоимостьБесплатно
Облачный сервисНет (только self-hosted)
Коммерческое использованиеРазрешено
ТребованияPython ≥ 3.8, PyTorch ≥ 1.13
⚠ Требования к железу
Для продакшн-использования с GPU нужна CUDA-совместимая карта. На CPU модели работают, но производительность ниже. Fun-ASR-Nano с vLLM даёт ускорение 2–3x по сравнению с базовым инференсом.

Плюсы и минусы

✅ Плюсы❌ Минусы
Полностью бесплатный и open-sourceТребует настройки сервера для деплоя
170x realtime на GPU, быстрее Whisper-GPU даже на CPUДокументация преимущественно на китайском
OpenAI-совместимый API (замена без кода)Основные сильные стороны — китайский/азиатские языки
Speaker diarization «из коробки»Большой размер некоторых моделей (800M–1.7B)
Детектирование эмоций и звуков (SER/AED)Whisper-large лучше для редких европейских языков
MCP Server для AI-агентов (Claude, Cursor)Сложный зоопарк моделей — не очевидно, какую выбрать
Файн-тюнинг предобученных моделейТребуется минимум PyTorch 1.13 и torchaudio
Docker-деплой и Kubernetes-шаблоныМеньше community-поддержки, чем у Whisper

Сравнение с альтернативами

ПараметрFunASRfaster-whisperOpenAI Whisper API
СтоимостьБесплатноБесплатно$0.006/мин
Скорость (GPU)~170x realtime~12x realtime (RTX 4070)Облако (нет данных)
Диаризация✅ Встроена⚠️ Через pyannote❌ Нет
Эмоции / AED✅ Встроены❌ Нет❌ Нет
Стриминг✅ Да✅ Да❌ Нет
OpenAI-совместимый API✅ Да⚠️ Частично✅ Да (нативно)
Языки50+99 (Whisper)99 (Whisper)
Лучший языкКитайский/АзиатскиеАнглийский/ЕвропейскиеАнглийский/Европейские
Файн-тюнинг✅ Да❌ Нет❌ Нет
Требует GPUНет (CPU работает)Нет (CPU работает)Нет (облако)
Self-hosted✅ Да✅ Да❌ Нет

SenseVoice-Small использует неавторегрессионную end-to-end архитектуру с крайне низкой задержкой инференса: при схожем количестве параметров с Whisper-Small модель работает более чем в 5 раз быстрее Whisper-Small и в 15 раз быстрее Whisper-Large.

Для сравнения: faster-whisper — это C++/Python порт с поддержкой Apple Metal, CUDA, Vulkan и CPU, а faster-whisper использует CTranslate2 для достижения ~4x пропускной способности оригинального Whisper на NVIDIA GPU через int8-квантование.


Интеграция с AI-агентами

📝 Пример: FunASR в LangChain
Запустите funasr-server --device cuda, затем в LangChain/Dify укажите openai_api_base="http://localhost:8000/v1". FunASR будет работать как drop-in замена OpenAI Whisper API без каких-либо изменений в коде агента.
# OpenAI-совместимый вызов через curl
curl http://localhost:8000/v1/audio/transcriptions \
  -F file=@meeting.wav \
  -F model=sensevoice \
  -F response_format=verbose_json

Вердикт: кому подойдёт и рейтинг

FunASR — выбор №1 если вы:

  • Работаете с китайским, японским, корейским, кантонским языками
  • Строите колл-центр, систему транскрибации встреч или анализа эмоций
  • Хотите self-hosted замену OpenAI Whisper API без затрат на облако
  • Интегрируете речь в AI-агентов (Claude, Cursor, AutoGen, Dify)
  • Нуждаетесь в диаризации и эмоциях «из коробки»

Выберите faster-whisper / WhisperX, если:

  • Приоритет — европейские языки и английский
  • Важна минимальная настройка без зоопарка моделей
  • Нужна поддержка Apple Silicon (Metal)

Итоговый рейтинг

КритерийОценка
Скорость инференса⭐⭐⭐⭐⭐ 10/10
Качество для азиатских языков⭐⭐⭐⭐⭐ 9/10
Качество для европейских языков⭐⭐⭐ 7/10
Простота установки⭐⭐⭐⭐ 8/10
Экосистема и интеграции⭐⭐⭐⭐ 8/10
Документация⭐⭐⭐ 6/10
Общий рейтинг⭐⭐⭐⭐ 8.5/10

FunASR — один из самых технически продвинутых open-source ASR-тулкитов 2025–2026 года. Экстремальная скорость, встроенные диаризация и детектирование эмоций, OpenAI-совместимый API и поддержка AI-агентов делают его незаменимым инструментом для production-деплоя — особенно при работе с азиатскими языками.