ONNX 模型库
返回模型

说明文档

SmolVLA Base(ONNX 导出)

本仓库包含来自 LeRobot 生态系统的 SmolVLA 基础策略模型的 ONNX 导出版本
SmolVLA 是 Hugging Face 面向机器人技术的轻量级视觉-语言-动作模型。原始模型约有 4.5 亿参数,专为在 LeRobot 收集的机器人数据集上进行微调而设计。

本仓库中的 ONNX 导出版本保留了与 PyTorch 模型 lerobot/smolvla_base 相同的权重和行为,但将策略拆分为多个较小的 ONNX 图,以支持通过 ONNXRuntime 进行硬件无关的推理。

内容

导出版本将 SmolVLA 架构拆分为多个组件。每个 .onnx 文件对应模型的特定部分:

文件 在 SmolVLA 架构中的作用
smolvlm_vision.onnx 视觉编码器;处理 RGB 相机帧并生成视觉嵌入。
smolvlm_text.onnx 文本编码器;将分词后的指令转换为语言嵌入。
smolvlm_expert_prefill.onnx 动作专家的"预填充"阶段;基于视觉和语言上下文进行条件处理。
smolvlm_expert_decode.onnx 动作专家的"解码"阶段;自回归生成动作 token。
state_projector.onnx 将机器人的感觉运动状态投影到模型的潜在空间。
time_in_projector.onnx 将当前时间步投影到潜在空间。
time_out_projector.onnx 将内部时间特征投影回专家模块。
action_in_projector.onnx 将先前的动作块投影到潜在空间(用于分块生成)。
action_out_projector.onnx 将模型输出投影回连续控制动作。

所有文件均以 opset 17 导出并使用静态形状。

推理

如果您希望对这个 ONNX 版本的 SmolVLA 模型进行推理,请参阅此仓库 https://github.com/aifoundry-org/ETARS。

ainekko/smolvla_base_onnx

作者 ainekko

robotics onnxruntime
↓ 0 ♥ 3

创建时间: 2025-10-13 08:51:48+00:00

更新时间: 2025-10-29 12:11:59+00:00

在 Hugging Face 上查看

文件 (11)

.gitattributes
README.md
action_in_projector.onnx ONNX
action_out_projector.onnx ONNX
smolvlm_expert_decode.onnx ONNX
smolvlm_expert_prefill.onnx ONNX
smolvlm_text.onnx ONNX
smolvlm_vision.onnx ONNX
state_projector.onnx ONNX
time_in_projector.onnx ONNX
time_out_projector.onnx ONNX