返回模型
说明文档
Smart Turn v3
Smart Turn v3 是一个开源的语义语音活动检测(VAD)模型,它通过分析原始音频波形(而非转录文本)来判断说话者是否已完成其话轮。
链接
- 博客文章:Smart Turn v3
- GitHub 仓库,包含训练和推理代码
- 数据集,包含训练和推理代码
模型架构
- 主干网络:Whisper Tiny 编码器
- 输出头:浅层线性分类器
- 参数量:8M(int8 量化)
- 模型文件:8 MB ONNX
如何使用
有关如何使用该模型(独立使用或与 Pipecat 配合使用)的更多信息,请参阅博客文章和 GitHub 仓库。
yapwithai/pipecat-smart-turn-v3
作者 yapwithai
voice-activity-detection
↓ 0
♥ 0
创建时间: 2025-10-09 12:50:13+00:00
更新时间: 2025-09-11 16:19:20+00:00
在 Hugging Face 上查看文件 (3)
.gitattributes
README.md
smart-turn-v3.0.onnx
ONNX