返回模型
说明文档
介绍
语音活动检测(VAD)在语音识别系统中发挥着重要作用,通过检测有效语音的起始和结束位置来提升识别效果。FunASR 提供了一个基于 FSMN 结构 的高效 VAD 模型。为了提高模型的判别能力,鉴于语音信息相对丰富,我们使用单音素作为建模单元。在推理过程中,VAD 系统需要进行后处理以提高鲁棒性,包括阈值设置和滑动窗口等操作。
本仓库演示了如何结合 funasr_onnx 运行时使用 FSMN-VAD。底层模型源自 FunASR,该模型在 5000 小时的大规模数据集上训练而成。
我们已经发布了众多工业级模型,包括语音识别、语音活动检测、标点恢复、声纹验证、说话人分离和时间戳预测(强制对齐)。如需了解更多关于这些模型的信息,请参阅 FunASR 提供的文档。如果您有兴趣在语音相关项目中利用先进的 AI 技术,欢迎探索 FunASR 提供的各种可能性。
安装 funasr_onnx
pip install -U funasr_onnx
# 对于中国用户,可以使用以下命令安装:
# pip install -U funasr_onnx -i https://mirror.sjtu.edu.cn/pypi/web/simple
下载模型
git lfs install
git clone https://huggingface.co/funasr/FSMN-VAD
使用运行时进行推理
语音活动检测
FSMN-VAD
from funasr_onnx import Fsmn_vad
model_dir = "./FSMN-VAD"
model = Fsmn_vad(model_dir, quantize=True)
wav_path = "./FSMN-VAD/asr_example.wav"
result = model(wav_path)
print(result)
model_dir:模型路径,包含model.onnx、config.yaml、am.mvnbatch_size:1(默认值),推理时的批次大小device_id:-1(默认值),在 CPU 上推理。如果您想使用 GPU 推理,请将其设置为 gpu_id(请确保已安装 onnxruntime-gpu)quantize:False(默认值),加载model_dir中的model.onnx模型。如果设置为True,则加载model_dir中的model_quant.onnx模型intra_op_num_threads:4(默认值),设置 CPU 上用于算子内并行计算的线程数
输入:wav 格式文件,支持格式:str, np.ndarray, List[str]
输出:List[str]:识别结果
引用
@inproceedings{gao2022paraformer,
title={Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition},
author={Gao, Zhifu and Zhang, Shiliang and McLoughlin, Ian and Yan, Zhijie},
booktitle={INTERSPEECH},
year={2022}
}
funasr/fsmn-vad-onnx
作者 funasr
voice-activity-detection
↓ 0
♥ 23
创建时间: 2023-04-22 13:55:01+00:00
更新时间: 2023-05-09 08:50:58+00:00
在 Hugging Face 上查看文件 (7)
.gitattributes
README.md
asr_example.wav
model.onnx
ONNX
model_quant.onnx
ONNX
vad.mvn
vad.yaml