返回模型

说明文档

Smart Turn Multimodal

Smart Turn Multimodal 是 Pipecat 的 Smart Turn 的多模态扩展，它结合音频和视频来预测说话者是否已经完成了他们的轮次。视觉线索（嘴部运动、视线）有助于消除仅通过音频难以判断的停顿的歧义。

链接

博客文章：Smart Turn Multimodal
GitHub 仓库，包含训练和推理代码
原始仅音频版本 Smart Turn v3

模型架构

音频分支： Whisper Tiny 编码器（8秒上下文），带交叉注意力池化 → 384维嵌入
视频分支： R3D-18（Kinetics-400 预训练），处理最近32帧（约1秒）→ 256维嵌入
融合： 通过拼接 + 线性投影进行后期融合，回到384维
参数量：约2000万
检查点：提供 ONNX 格式

仅音频回退

当视频不可用时，为 pixel_values 传入 None。模型内部会使用零张量，自动回退到仅音频行为——无需修改代码。

使用方法

from inference_multimodal import predict_endpoint

result = predict_endpoint(audio_array, video_path="clip.mp4")
# result = {"prediction": 1, "probability": 0.92}

# 仅音频回退
result = predict_endpoint(audio_array, video_path=None)

局限性

数据集多样性： 目前在 Meta 的 Casual Conversations 数据集上训练（主要是非脚本化的独白）。对不同对话风格的泛化能力仍在验证中。
VAD 触发： 模型由 VAD 检测到的静音触发，不能在静音发生之前预测轮次结束。

致谢

感谢 Pipecat 提供原始的 Smart Turn 模型，感谢 Meta 提供 Casual Conversations 数据集。

susuROBO/smart-turn-multimodal

作者 susuROBO

voice-activity-detection

↓ 0 ♥ 3

创建时间: 2026-01-14 09:54:58+00:00

更新时间: 2026-01-16 01:34:15+00:00

在 Hugging Face 上查看

文件 (4)

.gitattributes

README.md

smart-turn-multimodal-cpu.onnx ONNX

smart-turn-multimodal-gpu.onnx ONNX