返回模型
说明文档
SmolVLA Base(ONNX 导出)
本仓库包含来自 LeRobot 生态系统的 SmolVLA 基础策略模型的 ONNX 导出版本。
SmolVLA 是 Hugging Face 面向机器人技术的轻量级视觉-语言-动作模型。原始模型约有 4.5 亿参数,专为在 LeRobot 收集的机器人数据集上进行微调而设计。
本仓库中的 ONNX 导出版本保留了与 PyTorch 模型 lerobot/smolvla_base 相同的权重和行为,但将策略拆分为多个较小的 ONNX 图,以支持通过 ONNXRuntime 进行硬件无关的推理。
内容
导出版本将 SmolVLA 架构拆分为多个组件。每个 .onnx 文件对应模型的特定部分:
| 文件 | 在 SmolVLA 架构中的作用 |
|---|---|
smolvlm_vision.onnx |
视觉编码器;处理 RGB 相机帧并生成视觉嵌入。 |
smolvlm_text.onnx |
文本编码器;将分词后的指令转换为语言嵌入。 |
smolvlm_expert_prefill.onnx |
动作专家的"预填充"阶段;基于视觉和语言上下文进行条件处理。 |
smolvlm_expert_decode.onnx |
动作专家的"解码"阶段;自回归生成动作 token。 |
state_projector.onnx |
将机器人的感觉运动状态投影到模型的潜在空间。 |
time_in_projector.onnx |
将当前时间步投影到潜在空间。 |
time_out_projector.onnx |
将内部时间特征投影回专家模块。 |
action_in_projector.onnx |
将先前的动作块投影到潜在空间(用于分块生成)。 |
action_out_projector.onnx |
将模型输出投影回连续控制动作。 |
所有文件均以 opset 17 导出并使用静态形状。
推理
如果您希望对这个 ONNX 版本的 SmolVLA 模型进行推理,请参阅此仓库 https://github.com/aifoundry-org/ETARS。
ainekko/smolvla_base_onnx
作者 ainekko
robotics
onnxruntime
↓ 0
♥ 3
创建时间: 2025-10-13 08:51:48+00:00
更新时间: 2025-10-29 12:11:59+00:00
在 Hugging Face 上查看文件 (11)
.gitattributes
README.md
action_in_projector.onnx
ONNX
action_out_projector.onnx
ONNX
smolvlm_expert_decode.onnx
ONNX
smolvlm_expert_prefill.onnx
ONNX
smolvlm_text.onnx
ONNX
smolvlm_vision.onnx
ONNX
state_projector.onnx
ONNX
time_in_projector.onnx
ONNX
time_out_projector.onnx
ONNX