ONNX 模型库
返回模型

说明文档


license: apple-amlr library_name: ml-sharp pipeline_tag: image-to-3d base_model: apple/Sharp tags:

  • onnx
  • monocular-view-synthesis
  • gaussian-splatting
  • quantization
  • fp16

Sharp 单目视图合成:一秒内完成(ONNX 版本)

项目页面 arXiv

本软件项目是社区贡献,与原始研究论文无附属关系:

Sharp Monocular View Synthesis in Less Than a Second,作者 Lars Mescheder, Wei Dong, Shiwei Li, Xuyang Bai, Marcel Santos, Peiyun Hu, Bruno Lecouat, Mingmin Zhen, Amaël Delaunoy, Tian Fang, Yanghai Tsin, Stephan Richter 和 Vladlen Koltun

我们提出了 SHARP,一种从单张图像进行逼真视图合成的方法。给定一张照片,SHARP 可以在标准 GPU 上通过神经网络的单次前向传播,在不到一秒的时间内回归出所描绘场景的 3D 高斯表示参数。SHARP 生成的 3D 高斯表示可以实时渲染,为附近视角生成高分辨率逼真图像。该表示具有度量性,包含绝对尺度,支持度量相机移动。

本次发布包含经过完整验证的 SHARP ONNX 版本(FP32 和 FP16),针对 Windows、Linux 和 macOS 的跨平台推理进行了优化。

使用 Splat Viewer 渲染

快速入门

🚀 运行推理

使用提供的 inference_onnx.py 脚本运行 SHARP 推理:

# 使用 FP16 模型运行推理(更快、更小)
python inference_onnx.py -m sharp_fp16.onnx -i test.png -o test.ply -d 0.5

命令行选项:

  • -m, --model:ONNX 模型文件路径
  • -i, --input:输入图像路径(PNG、JPEG 等)
  • -o, --output:输出 PLY 文件路径
  • -d, --decimate:抽稀比率 0.0-1.0(默认:1.0 = 保留全部)
  • --disparity-factor:深度比例因子(默认:1.0)
  • --depth-scale:深度夸张因子(默认:1.0)

功能特性:

  • 跨平台 ONNX Runtime 推理(CPU/GPU)
  • 自动图像预处理和调整大小
  • 高斯抽稀以减小文件大小
  • PLY 输出兼容所有主流 3D 高斯查看器

模型输入和输出

📥 输入

ONNX 模型接受两个输入:

  • imagefloat32 格式的 3 通道 RGB 图像,形状为 (1, 3, H, W)

    • 数值范围预期为 [0, 1](归一化 RGB)。
    • 推荐分辨率:1536×1536(与训练尺寸匹配)。
    • 保持宽高比;如需要会在内部调整输入大小。
  • disparity_factor:形状为 (1,) 的标量张量,表示比率 focal_length / image_width(焦距/图像宽度)。

    • 标准相机使用 1.0(例如典型智能手机或单反相机)。
    • 调整以控制深度比例:值越高 = 物体越近,值越低 = 场景越远。

📤 输出

模型输出五个张量,表示 3D 高斯溅射表示:

输出 形状 描述
mean_vectors_3d_positions (1, N, 3) 归一化设备坐标(NDC)中的 3D 位置 — x、y、z。
singular_values_scales (1, N, 3) 沿每个主轴的缩放参数(宽度、高度、深度)。
quaternions_rotations (1, N, 4) 单位四元数 [w, x, y, z],编码每个高斯的朝向。
colors_rgb_linear (1, N, 3) 范围 [0, 1] 内的线性 RGB 颜色值(无伽马校正)。
opacities_alpha_channel (1, N) 每个高斯的不透明度(alpha)值,范围 [0, 1]

默认模型的高斯总数 N 约为 1,179,648。

模型转换

要将 SHARP 从 PyTorch 转换为 ONNX,请使用提供的转换脚本:

# 转换为 FP32 ONNX(更高精度)
python convert_onnx.py -o sharp.onnx --validate

# 转换为 FP16 ONNX(推理更快,模型更小)
python convert_onnx.py -o sharp_fp16.onnx -q fp16 --validate

转换选项:

  • -c, --checkpoint:PyTorch 检查点路径(如未提供则从 Apple 下载)
  • -o, --output:输出 ONNX 模型路径
  • -q, --quantize:量化类型(fp16 表示半精度)
  • --validate:对照 PyTorch 参考验证转换后的模型
  • --input-image:用于验证的测试图像路径

依赖要求:

  • PyTorch 和 ml-sharp 源代码(自动下载)
  • ONNX 和 ONNX Runtime 用于验证

引用

如果您发现这项工作有用,请引用原始论文:

@inproceedings{Sharp2025:arxiv,
  title      = {Sharp Monocular View Synthesis in Less Than a Second},
  author     = {Lars Mescheder and Wei Dong and Shiwei Li and Xuyang Bai and Marcel Santos and Peiyun Hu and Bruno Lecouat and Mingmin Zhen and Ama\\"{e}l Delaunoy and Tian Fang and Yanghai Tsin and Stephan R. Richter and Vladlen Koltun},
  journal    = {arXiv preprint arXiv:2512.10685},
  year       = {2025},
  url        = {https://arxiv.org/abs/2512.10685},
}

pearsonkyle/Sharp-onnx

作者 pearsonkyle

image-to-3d ml-sharp
↓ 0 ♥ 0

创建时间: 2026-01-08 19:06:53+00:00

更新时间: 2026-01-17 05:05:16+00:00

在 Hugging Face 上查看

文件 (7)

.gitattributes
.gitignore
README.md
convert_onnx.py
inference_onnx.py
sharp_fp16.onnx ONNX
viewer.gif