ONNX 模型库
返回模型

说明文档

Smart Turn v3.x

Smart Turn 是一个开源的语义语音活动检测 (VAD) 模型,通过分析原始波形(而非转录文本)来判断说话者是否已完成其发言轮次。

链接

模型架构

  • 骨干网络: Whisper Tiny 编码器
  • 头部: 浅层线性分类器
  • 参数量: 8M
  • 检查点: 8 MB ONNX (int8 量化), 32MB ONNX (未量化)

使用方法

有关使用该模型的更多信息(独立使用或与 Pipecat 配合使用),请参阅博客文章和 GitHub 仓库。

致谢

感谢以下组织贡献音频数据集:

pipecat-ai/smart-turn-v3

作者 pipecat-ai

voice-activity-detection
↓ 0 ♥ 130

创建时间: 2025-09-11 10:02:38+00:00

更新时间: 2026-01-07 18:00:39+00:00

在 Hugging Face 上查看

文件 (12)

.gitattributes
README.md
benchmarks/smart-turn-v3.0.md
benchmarks/smart-turn-v3.1-cpu.md
benchmarks/smart-turn-v3.1-gpu.md
benchmarks/smart-turn-v3.2-cpu.md
benchmarks/smart-turn-v3.2-gpu.md
smart-turn-v3.0.onnx ONNX
smart-turn-v3.1-cpu.onnx ONNX
smart-turn-v3.1-gpu.onnx ONNX
smart-turn-v3.2-cpu.onnx ONNX
smart-turn-v3.2-gpu.onnx ONNX