说明文档

SmolVLA Base（ONNX 导出）

本仓库包含来自 LeRobot 生态系统的 SmolVLA 基础策略模型的 ONNX 导出版本。
SmolVLA 是 Hugging Face 面向机器人技术的轻量级视觉-语言-动作模型。原始模型约有 4.5 亿参数，专为在 LeRobot 收集的机器人数据集上进行微调而设计。

本仓库中的 ONNX 导出版本保留了与 PyTorch 模型 lerobot/smolvla_base 相同的权重和行为，但将策略拆分为多个较小的 ONNX 图，以支持通过 ONNXRuntime 进行硬件无关的推理。

导出版本将 SmolVLA 架构拆分为多个组件。每个 .onnx 文件对应模型的特定部分：

文件	在 SmolVLA 架构中的作用
`smolvlm_vision.onnx`	视觉编码器；处理 RGB 相机帧并生成视觉嵌入。
`smolvlm_text.onnx`	文本编码器；将分词后的指令转换为语言嵌入。
`smolvlm_expert_prefill.onnx`	动作专家的"预填充"阶段；基于视觉和语言上下文进行条件处理。
`smolvlm_expert_decode.onnx`	动作专家的"解码"阶段；自回归生成动作 token。
`state_projector.onnx`	将机器人的感觉运动状态投影到模型的潜在空间。
`time_in_projector.onnx`	将当前时间步投影到潜在空间。
`time_out_projector.onnx`	将内部时间特征投影回专家模块。
`action_in_projector.onnx`	将先前的动作块投影到潜在空间（用于分块生成）。
`action_out_projector.onnx`	将模型输出投影回连续控制动作。

所有文件均以 opset 17 导出并使用静态形状。

如果您希望对这个 ONNX 版本的 SmolVLA 模型进行推理，请参阅此仓库 https://github.com/aifoundry-org/ETARS。

作者 ainekko

robotics onnxruntime

↓ 0 ♥ 3

创建时间: 2025-10-13 08:51:48+00:00

更新时间: 2025-10-29 12:11:59+00:00

.gitattributes

README.md

action_in_projector.onnx ONNX

action_out_projector.onnx ONNX

smolvlm_expert_decode.onnx ONNX

smolvlm_expert_prefill.onnx ONNX

smolvlm_text.onnx ONNX

smolvlm_vision.onnx ONNX

state_projector.onnx ONNX

time_in_projector.onnx ONNX

time_out_projector.onnx ONNX