ONNX 模型库
返回模型

说明文档

Smart Turn v3

Smart Turn v3 是一个开源的语义语音活动检测(VAD)模型,它通过分析原始音频波形(而非转录文本)来判断说话者是否已完成其话轮。

链接

模型架构

  • 主干网络:Whisper Tiny 编码器
  • 输出头:浅层线性分类器
  • 参数量:8M(int8 量化)
  • 模型文件:8 MB ONNX

如何使用

有关如何使用该模型(独立使用或与 Pipecat 配合使用)的更多信息,请参阅博客文章和 GitHub 仓库。

yapwithai/pipecat-smart-turn-v3

作者 yapwithai

voice-activity-detection
↓ 0 ♥ 0

创建时间: 2025-10-09 12:50:13+00:00

更新时间: 2025-09-11 16:19:20+00:00

在 Hugging Face 上查看

文件 (3)

.gitattributes
README.md
smart-turn-v3.0.onnx ONNX