ONNX 模型库
返回模型

说明文档

Smart Turn Multimodal

Smart Turn Multimodal 是 Pipecat 的 Smart Turn 的多模态扩展,它结合音频和视频来预测说话者是否已经完成了他们的轮次。视觉线索(嘴部运动、视线)有助于消除仅通过音频难以判断的停顿的歧义。

链接

模型架构

  • 音频分支: Whisper Tiny 编码器(8秒上下文),带交叉注意力池化 → 384维嵌入
  • 视频分支: R3D-18(Kinetics-400 预训练),处理最近32帧(约1秒)→ 256维嵌入
  • 融合: 通过拼接 + 线性投影进行后期融合,回到384维
  • 参数量:约2000万
  • 检查点:提供 ONNX 格式

仅音频回退

当视频不可用时,为 pixel_values 传入 None。模型内部会使用零张量,自动回退到仅音频行为——无需修改代码。

使用方法

from inference_multimodal import predict_endpoint

result = predict_endpoint(audio_array, video_path="clip.mp4")
# result = {"prediction": 1, "probability": 0.92}

# 仅音频回退
result = predict_endpoint(audio_array, video_path=None)

局限性

  • 数据集多样性: 目前在 Meta 的 Casual Conversations 数据集上训练(主要是非脚本化的独白)。对不同对话风格的泛化能力仍在验证中。
  • VAD 触发: 模型由 VAD 检测到的静音触发,不能在静音发生之前预测轮次结束。

致谢

感谢 Pipecat 提供原始的 Smart Turn 模型,感谢 Meta 提供 Casual Conversations 数据集。

susuROBO/smart-turn-multimodal

作者 susuROBO

voice-activity-detection
↓ 0 ♥ 3

创建时间: 2026-01-14 09:54:58+00:00

更新时间: 2026-01-16 01:34:15+00:00

在 Hugging Face 上查看

文件 (4)

.gitattributes
README.md
smart-turn-multimodal-cpu.onnx ONNX
smart-turn-multimodal-gpu.onnx ONNX