说明文档

license: mit pipeline_tag: robotics tags:

mvae
prosoro
multimodal
onnx
pytorch library_name: transformers datasets:
asRobotics/prosoro-100k

ProSoRo-MVAE 模型卡片

<div> <a href="https://hanxudong.cc">韩旭东</a><sup>1</sup>, <a href="https://gabriel-ning.github.io">郭宁</a><sup>2</sup>, <a href="">徐荣瀚</a><sup>1</sup>, <a href="https://maindl.ancorasir.com">万方</a><sup>1</sup>, <a href="https://bionicdl.ancorasir.com">宋超阳</a><sup>1</sup> </br> <sup>1</sup> 南方科技大学, <sup>2</sup> 上海交通大学 </br></br> <div align="center"> <img src="https://github.com/ancorasir/ProSoRo/blob/main/assets/img/teaser.gif?raw=true" width="80%"> </div> </div>

模型描述

本体感知软体机器人 是一种利用微型视觉追踪机器人可变形结构内部标记的本体感知软体机器人系统。通过监测这一单点相对于固定边界的运动，我们捕获了关于机器人整体变形状态的关键信息，显著降低了感知复杂度。为了充分利用这种基于锚点的方法的潜力，我们开发了一个多模态本体感知学习框架，利用多模态变分自编码器（MVAE） 将 ProSoRo 的运动、力和形状基于锚点观测对齐到统一的表示中，涉及三个阶段：

ProSoRo 框架

材料识别：认识到为软体机器人收集大量物理数据集的不切实际性，我们利用有限元分析（FEA）仿真生成高质量的训练数据。我们首先通过标准的单轴拉伸试验测量材料的应力-应变曲线，以获得最佳拟合的材料模型。然后，在相同的锚点运动下，通过比较有限元分析（FEA）计算得到的力与物理实验测量的真实值，我们应用进化策略优化材料参数。更多细节可在 EVOMIA 中找到。
潜在本体感知学习：仿真数据集使用优化后的材料参数生成，提供运动 $[D_x, D_y, D_z, R_x, R_y, R_z]^\mathrm{T}$、力 $[F_x, F_y, F_z, T_x, T_y, T_z]^\mathrm{T}$ 和形状 $[n_x, n_y, n_z]_{3n}^\mathrm{T}$ 的节点位移作为训练输入。为了学习这些模态以实现显式本体感知，我们开发了一个多模态变分自编码器（MVAE），通过潜在编码编码 ProSoRo 的本体感知。三个模态的潜在编码通过特定的运动、力和形状编码器生成，共享编码通过最小化三个编码之间的误差融合了来自所有三个模态的信息。因此，共享编码在潜在空间中提供显式本体感知，称为潜在本体感知，可用于使用特定解码器重建施加交互的三个模态。
跨模态推理：在实际部署中，例如形状模态可以从潜在本体感知估计，而不是直接测量，这在机器人的实时交互中通常难以实现。在这个阶段，我们通过视觉捕获 ProSoRo 的锚点作为 MVAE 的输入，基于从仿真数据学习到的潜在知识估计力和形状模态。我们发现我们提出的潜在本体感知框架是软体机器人交互中的通用解决方案。

在潜在编码中，我们识别了对应于基本变形模式的关键变形基元。通过系统性地变化这些潜在分量，我们可以生成一系列变形行为，为软体机器人系统的内在维度和可控性提供了新的视角。这种理解增强了潜在编码的可解释性，并促进了更复杂控制策略和先进人机交互界面的发展。

潜在变形基元

预期用途

该模型面向软体机器人领域的研究人员和从业者，适用于为软体机器人系统开发本体感知能力。详见项目主页。

加载模型：

# 加载 safetensors 的示例代码
from transformers import AutoModel

model = AutoModel.from_pretrained("asRobotics/prosoro-mvae", prosoro_type="cylinder")
x = torch.zeros((1, 6))  # 示例输入：批次大小为 1，6D 运动
output = model(x)

或加载 ONNX 版本：

# 加载 onnx 的示例代码
import onnxruntime as ort
import numpy as np
from huggingface_hub import hf_hub_download

onnx_model_path = hf_hub_download(repo_id="asRobotics/prosoro-mvae", filename="cylinder/model.onnx")
ort_session = ort.InferenceSession(onnx_model_path)
x = np.zeros((1, 6)).astype(np.float32)  # 示例输入：批次大小为 1，6D 运动
outputs = ort_session.run(None, {"motion": x})

训练数据

该模型在 ProSoRo-100K 数据集上训练，该数据集包含 100,000 个不同形状 ProSoRo 的仿真数据样本。

引用

如果您在研究中使用此模型，请引用以下论文：

@article{han2025anchoring,
    title={Anchoring Morphological Representations Unlocks Latent Proprioception in Soft Robots},
    author={Han, Xudong and Guo, Ning and Xu, Ronghan and Wan, Fang and Song, Chaoyang},
    journal={Advanced Intelligent Systems},
    volume={0},
    pages={0-0},
    year={2025}
}

han-xudong/prosoro-mvae

作者 han-xudong

robotics transformers

↓ 0 ♥ 0

创建时间: 2025-10-24 01:33:49+00:00

更新时间: 2025-10-28 04:53:14+00:00

在 Hugging Face 上查看

文件 (24)

.gitattributes

.gitignore

README.md

__init__.py

config.json

cylinder/config.json

cylinder/model.onnx ONNX

cylinder/model.safetensors

dome/config.json

dome/model.onnx ONNX

dome/model.safetensors

modeling.py

neck/config.json

neck/model.onnx ONNX

neck/model.safetensors

octagonal_prism/config.json

octagonal_prism/model.onnx ONNX

octagonal_prism/model.safetensors

origami/config.json

origami/model.onnx ONNX

origami/model.safetensors

quadrangular_prism/config.json

quadrangular_prism/model.onnx ONNX

quadrangular_prism/model.safetensors