返回模型
说明文档
Smart Turn Multimodal
Smart Turn Multimodal 是 Pipecat 的 Smart Turn 的多模态扩展,它结合音频和视频来预测说话者是否已经完成了他们的轮次。视觉线索(嘴部运动、视线)有助于消除仅通过音频难以判断的停顿的歧义。
链接
- 博客文章:Smart Turn Multimodal
- GitHub 仓库,包含训练和推理代码
- 原始仅音频版本 Smart Turn v3
模型架构
- 音频分支: Whisper Tiny 编码器(8秒上下文),带交叉注意力池化 → 384维嵌入
- 视频分支: R3D-18(Kinetics-400 预训练),处理最近32帧(约1秒)→ 256维嵌入
- 融合: 通过拼接 + 线性投影进行后期融合,回到384维
- 参数量:约2000万
- 检查点:提供 ONNX 格式
仅音频回退
当视频不可用时,为 pixel_values 传入 None。模型内部会使用零张量,自动回退到仅音频行为——无需修改代码。
使用方法
from inference_multimodal import predict_endpoint
result = predict_endpoint(audio_array, video_path="clip.mp4")
# result = {"prediction": 1, "probability": 0.92}
# 仅音频回退
result = predict_endpoint(audio_array, video_path=None)
局限性
- 数据集多样性: 目前在 Meta 的 Casual Conversations 数据集上训练(主要是非脚本化的独白)。对不同对话风格的泛化能力仍在验证中。
- VAD 触发: 模型由 VAD 检测到的静音触发,不能在静音发生之前预测轮次结束。
致谢
感谢 Pipecat 提供原始的 Smart Turn 模型,感谢 Meta 提供 Casual Conversations 数据集。
susuROBO/smart-turn-multimodal
作者 susuROBO
voice-activity-detection
↓ 0
♥ 3
创建时间: 2026-01-14 09:54:58+00:00
更新时间: 2026-01-16 01:34:15+00:00
在 Hugging Face 上查看文件 (4)
.gitattributes
README.md
smart-turn-multimodal-cpu.onnx
ONNX
smart-turn-multimodal-gpu.onnx
ONNX