说明文档
license: apple-amlr library_name: ml-sharp pipeline_tag: image-to-3d base_model: apple/Sharp tags:
- onnx
- monocular-view-synthesis
- gaussian-splatting
- quantization
- fp16
Sharp 单目视图合成:一秒内完成(ONNX 版本)
本软件项目是社区贡献,与原始研究论文无附属关系:
Sharp Monocular View Synthesis in Less Than a Second,作者 Lars Mescheder, Wei Dong, Shiwei Li, Xuyang Bai, Marcel Santos, Peiyun Hu, Bruno Lecouat, Mingmin Zhen, Amaël Delaunoy, Tian Fang, Yanghai Tsin, Stephan Richter 和 Vladlen Koltun。
我们提出了 SHARP,一种从单张图像进行逼真视图合成的方法。给定一张照片,SHARP 可以在标准 GPU 上通过神经网络的单次前向传播,在不到一秒的时间内回归出所描绘场景的 3D 高斯表示参数。SHARP 生成的 3D 高斯表示可以实时渲染,为附近视角生成高分辨率逼真图像。该表示具有度量性,包含绝对尺度,支持度量相机移动。
本次发布包含经过完整验证的 SHARP ONNX 版本(FP32 和 FP16),针对 Windows、Linux 和 macOS 的跨平台推理进行了优化。

使用 Splat Viewer 渲染
快速入门
🚀 运行推理
使用提供的 inference_onnx.py 脚本运行 SHARP 推理:
# 使用 FP16 模型运行推理(更快、更小)
python inference_onnx.py -m sharp_fp16.onnx -i test.png -o test.ply -d 0.5
命令行选项:
-m, --model:ONNX 模型文件路径-i, --input:输入图像路径(PNG、JPEG 等)-o, --output:输出 PLY 文件路径-d, --decimate:抽稀比率 0.0-1.0(默认:1.0 = 保留全部)--disparity-factor:深度比例因子(默认:1.0)--depth-scale:深度夸张因子(默认:1.0)
功能特性:
- 跨平台 ONNX Runtime 推理(CPU/GPU)
- 自动图像预处理和调整大小
- 高斯抽稀以减小文件大小
- PLY 输出兼容所有主流 3D 高斯查看器
模型输入和输出
📥 输入
ONNX 模型接受两个输入:
-
image:float32格式的 3 通道 RGB 图像,形状为(1, 3, H, W)。- 数值范围预期为
[0, 1](归一化 RGB)。 - 推荐分辨率:
1536×1536(与训练尺寸匹配)。 - 保持宽高比;如需要会在内部调整输入大小。
- 数值范围预期为
-
disparity_factor:形状为(1,)的标量张量,表示比率focal_length / image_width(焦距/图像宽度)。- 标准相机使用
1.0(例如典型智能手机或单反相机)。 - 调整以控制深度比例:值越高 = 物体越近,值越低 = 场景越远。
- 标准相机使用
📤 输出
模型输出五个张量,表示 3D 高斯溅射表示:
| 输出 | 形状 | 描述 |
|---|---|---|
mean_vectors_3d_positions |
(1, N, 3) |
归一化设备坐标(NDC)中的 3D 位置 — x、y、z。 |
singular_values_scales |
(1, N, 3) |
沿每个主轴的缩放参数(宽度、高度、深度)。 |
quaternions_rotations |
(1, N, 4) |
单位四元数 [w, x, y, z],编码每个高斯的朝向。 |
colors_rgb_linear |
(1, N, 3) |
范围 [0, 1] 内的线性 RGB 颜色值(无伽马校正)。 |
opacities_alpha_channel |
(1, N) |
每个高斯的不透明度(alpha)值,范围 [0, 1]。 |
默认模型的高斯总数 N 约为 1,179,648。
模型转换
要将 SHARP 从 PyTorch 转换为 ONNX,请使用提供的转换脚本:
# 转换为 FP32 ONNX(更高精度)
python convert_onnx.py -o sharp.onnx --validate
# 转换为 FP16 ONNX(推理更快,模型更小)
python convert_onnx.py -o sharp_fp16.onnx -q fp16 --validate
转换选项:
-c, --checkpoint:PyTorch 检查点路径(如未提供则从 Apple 下载)-o, --output:输出 ONNX 模型路径-q, --quantize:量化类型(fp16表示半精度)--validate:对照 PyTorch 参考验证转换后的模型--input-image:用于验证的测试图像路径
依赖要求:
- PyTorch 和 ml-sharp 源代码(自动下载)
- ONNX 和 ONNX Runtime 用于验证
引用
如果您发现这项工作有用,请引用原始论文:
@inproceedings{Sharp2025:arxiv,
title = {Sharp Monocular View Synthesis in Less Than a Second},
author = {Lars Mescheder and Wei Dong and Shiwei Li and Xuyang Bai and Marcel Santos and Peiyun Hu and Bruno Lecouat and Mingmin Zhen and Ama\\"{e}l Delaunoy and Tian Fang and Yanghai Tsin and Stephan R. Richter and Vladlen Koltun},
journal = {arXiv preprint arXiv:2512.10685},
year = {2025},
url = {https://arxiv.org/abs/2512.10685},
}
pearsonkyle/Sharp-onnx
作者 pearsonkyle
创建时间: 2026-01-08 19:06:53+00:00
更新时间: 2026-01-17 05:05:16+00:00
在 Hugging Face 上查看