返回模型
说明文档
Smart Turn v3.x
Smart Turn 是一个开源的语义语音活动检测 (VAD) 模型,通过分析原始波形(而非转录文本)来判断说话者是否已完成其发言轮次。
链接
- 博客文章: Smart Turn v3
- GitHub 仓库 包含训练和推理代码,以及更多信息
- 数据集
模型架构
- 骨干网络: Whisper Tiny 编码器
- 头部: 浅层线性分类器
- 参数量: 8M
- 检查点: 8 MB ONNX (int8 量化), 32MB ONNX (未量化)
使用方法
有关使用该模型的更多信息(独立使用或与 Pipecat 配合使用),请参阅博客文章和 GitHub 仓库。
致谢
感谢以下组织贡献音频数据集:
pipecat-ai/smart-turn-v3
作者 pipecat-ai
voice-activity-detection
↓ 0
♥ 130
创建时间: 2025-09-11 10:02:38+00:00
更新时间: 2026-01-07 18:00:39+00:00
在 Hugging Face 上查看文件 (12)
.gitattributes
README.md
benchmarks/smart-turn-v3.0.md
benchmarks/smart-turn-v3.1-cpu.md
benchmarks/smart-turn-v3.1-gpu.md
benchmarks/smart-turn-v3.2-cpu.md
benchmarks/smart-turn-v3.2-gpu.md
smart-turn-v3.0.onnx
ONNX
smart-turn-v3.1-cpu.onnx
ONNX
smart-turn-v3.1-gpu.onnx
ONNX
smart-turn-v3.2-cpu.onnx
ONNX
smart-turn-v3.2-gpu.onnx
ONNX