说明文档

介绍

语音活动检测（VAD）在语音识别系统中发挥着重要作用，通过检测有效语音的起始和结束位置来提升识别效果。FunASR 提供了一个基于 FSMN 结构的高效 VAD 模型。为了提高模型的判别能力，鉴于语音信息相对丰富，我们使用单音素作为建模单元。在推理过程中，VAD 系统需要进行后处理以提高鲁棒性，包括阈值设置和滑动窗口等操作。

本仓库演示了如何结合 funasr_onnx 运行时使用 FSMN-VAD。底层模型源自 FunASR，该模型在 5000 小时的大规模数据集上训练而成。

我们已经发布了众多工业级模型，包括语音识别、语音活动检测、标点恢复、声纹验证、说话人分离和时间戳预测（强制对齐）。如需了解更多关于这些模型的信息，请参阅 FunASR 提供的文档。如果您有兴趣在语音相关项目中利用先进的 AI 技术，欢迎探索 FunASR 提供的各种可能性。

安装 funasr_onnx

pip install -U funasr_onnx
# 对于中国用户，可以使用以下命令安装：
# pip install -U funasr_onnx -i https://mirror.sjtu.edu.cn/pypi/web/simple

下载模型

git lfs install
git clone https://huggingface.co/funasr/FSMN-VAD

使用运行时进行推理

语音活动检测

FSMN-VAD

from funasr_onnx import Fsmn_vad

model_dir = "./FSMN-VAD"
model = Fsmn_vad(model_dir, quantize=True)

wav_path = "./FSMN-VAD/asr_example.wav"

result = model(wav_path)
print(result)

model_dir：模型路径，包含 model.onnx、config.yaml、am.mvn
batch_size：1（默认值），推理时的批次大小
device_id：-1（默认值），在 CPU 上推理。如果您想使用 GPU 推理，请将其设置为 gpu_id（请确保已安装 onnxruntime-gpu）
quantize：False（默认值），加载 model_dir 中的 model.onnx 模型。如果设置为 True，则加载 model_dir 中的 model_quant.onnx 模型
intra_op_num_threads：4（默认值），设置 CPU 上用于算子内并行计算的线程数

输入：wav 格式文件，支持格式：str, np.ndarray, List[str]

输出：List[str]：识别结果

引用

@inproceedings{gao2022paraformer,
  title={Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition},
  author={Gao, Zhifu and Zhang, Shiliang and McLoughlin, Ian and Yan, Zhijie},
  booktitle={INTERSPEECH},
  year={2022}
}

funasr/fsmn-vad-onnx

作者 funasr

voice-activity-detection

↓ 0 ♥ 23

创建时间: 2023-04-22 13:55:01+00:00

更新时间: 2023-05-09 08:50:58+00:00

在 Hugging Face 上查看

文件 (7)

.gitattributes

README.md

asr_example.wav

model.onnx ONNX

model_quant.onnx ONNX

vad.mvn

vad.yaml