ONNX 模型库
返回模型

说明文档

介绍

语音活动检测(VAD)在语音识别系统中发挥着重要作用,通过检测有效语音的起始和结束位置来提升识别效果。FunASR 提供了一个基于 FSMN 结构 的高效 VAD 模型。为了提高模型的判别能力,鉴于语音信息相对丰富,我们使用单音素作为建模单元。在推理过程中,VAD 系统需要进行后处理以提高鲁棒性,包括阈值设置和滑动窗口等操作。

本仓库演示了如何结合 funasr_onnx 运行时使用 FSMN-VAD。底层模型源自 FunASR,该模型在 5000 小时的大规模数据集上训练而成。

我们已经发布了众多工业级模型,包括语音识别、语音活动检测、标点恢复、声纹验证、说话人分离和时间戳预测(强制对齐)。如需了解更多关于这些模型的信息,请参阅 FunASR 提供的文档。如果您有兴趣在语音相关项目中利用先进的 AI 技术,欢迎探索 FunASR 提供的各种可能性。

安装 funasr_onnx

pip install -U funasr_onnx
# 对于中国用户,可以使用以下命令安装:
# pip install -U funasr_onnx -i https://mirror.sjtu.edu.cn/pypi/web/simple

下载模型

git lfs install
git clone https://huggingface.co/funasr/FSMN-VAD

使用运行时进行推理

语音活动检测

FSMN-VAD

from funasr_onnx import Fsmn_vad

model_dir = "./FSMN-VAD"
model = Fsmn_vad(model_dir, quantize=True)

wav_path = "./FSMN-VAD/asr_example.wav"

result = model(wav_path)
print(result)
  • model_dir:模型路径,包含 model.onnxconfig.yamlam.mvn
  • batch_size1(默认值),推理时的批次大小
  • device_id-1(默认值),在 CPU 上推理。如果您想使用 GPU 推理,请将其设置为 gpu_id(请确保已安装 onnxruntime-gpu)
  • quantizeFalse(默认值),加载 model_dir 中的 model.onnx 模型。如果设置为 True,则加载 model_dir 中的 model_quant.onnx 模型
  • intra_op_num_threads4(默认值),设置 CPU 上用于算子内并行计算的线程数

输入:wav 格式文件,支持格式:str, np.ndarray, List[str]

输出:List[str]:识别结果

引用

@inproceedings{gao2022paraformer,
  title={Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition},
  author={Gao, Zhifu and Zhang, Shiliang and McLoughlin, Ian and Yan, Zhijie},
  booktitle={INTERSPEECH},
  year={2022}
}

funasr/fsmn-vad-onnx

作者 funasr

voice-activity-detection
↓ 0 ♥ 23

创建时间: 2023-04-22 13:55:01+00:00

更新时间: 2023-05-09 08:50:58+00:00

在 Hugging Face 上查看

文件 (7)

.gitattributes
README.md
asr_example.wav
model.onnx ONNX
model_quant.onnx ONNX
vad.mvn
vad.yaml