说明文档

license: apple-amlr library_name: ml-sharp pipeline_tag: image-to-3d base_model: apple/Sharp tags:

onnx
monocular-view-synthesis
gaussian-splatting
quantization
fp16

Sharp 单目视图合成：一秒内完成（ONNX 版本）

本软件项目是社区贡献，与原始研究论文无附属关系：

Sharp Monocular View Synthesis in Less Than a Second，作者 Lars Mescheder, Wei Dong, Shiwei Li, Xuyang Bai, Marcel Santos, Peiyun Hu, Bruno Lecouat, Mingmin Zhen, Amaël Delaunoy, Tian Fang, Yanghai Tsin, Stephan Richter 和 Vladlen Koltun。

我们提出了 SHARP，一种从单张图像进行逼真视图合成的方法。给定一张照片，SHARP 可以在标准 GPU 上通过神经网络的单次前向传播，在不到一秒的时间内回归出所描绘场景的 3D 高斯表示参数。SHARP 生成的 3D 高斯表示可以实时渲染，为附近视角生成高分辨率逼真图像。该表示具有度量性，包含绝对尺度，支持度量相机移动。

本次发布包含经过完整验证的 SHARP ONNX 版本（FP32 和 FP16），针对 Windows、Linux 和 macOS 的跨平台推理进行了优化。

使用 Splat Viewer 渲染

快速入门

🚀 运行推理

使用提供的 inference_onnx.py 脚本运行 SHARP 推理：

# 使用 FP16 模型运行推理（更快、更小）
python inference_onnx.py -m sharp_fp16.onnx -i test.png -o test.ply -d 0.5

命令行选项：

-m, --model：ONNX 模型文件路径
-i, --input：输入图像路径（PNG、JPEG 等）
-o, --output：输出 PLY 文件路径
-d, --decimate：抽稀比率 0.0-1.0（默认：1.0 = 保留全部）
--disparity-factor：深度比例因子（默认：1.0）
--depth-scale：深度夸张因子（默认：1.0）

功能特性：

跨平台 ONNX Runtime 推理（CPU/GPU）
自动图像预处理和调整大小
高斯抽稀以减小文件大小
PLY 输出兼容所有主流 3D 高斯查看器

模型输入和输出

📥 输入

ONNX 模型接受两个输入：

image：float32 格式的 3 通道 RGB 图像，形状为 (1, 3, H, W)。
- 数值范围预期为 [0, 1]（归一化 RGB）。
- 推荐分辨率：1536×1536（与训练尺寸匹配）。
- 保持宽高比；如需要会在内部调整输入大小。
disparity_factor：形状为 (1,) 的标量张量，表示比率 focal_length / image_width（焦距/图像宽度）。
- 标准相机使用 1.0（例如典型智能手机或单反相机）。
- 调整以控制深度比例：值越高 = 物体越近，值越低 = 场景越远。

📤 输出

模型输出五个张量，表示 3D 高斯溅射表示：

输出	形状	描述
`mean_vectors_3d_positions`	`(1, N, 3)`	归一化设备坐标（NDC）中的 3D 位置 — x、y、z。
`singular_values_scales`	`(1, N, 3)`	沿每个主轴的缩放参数（宽度、高度、深度）。
`quaternions_rotations`	`(1, N, 4)`	单位四元数 `[w, x, y, z]`，编码每个高斯的朝向。
`colors_rgb_linear`	`(1, N, 3)`	范围 `[0, 1]` 内的线性 RGB 颜色值（无伽马校正）。
`opacities_alpha_channel`	`(1, N)`	每个高斯的不透明度（alpha）值，范围 `[0, 1]`。

默认模型的高斯总数 N 约为 1,179,648。

模型转换

要将 SHARP 从 PyTorch 转换为 ONNX，请使用提供的转换脚本：

# 转换为 FP32 ONNX（更高精度）
python convert_onnx.py -o sharp.onnx --validate

# 转换为 FP16 ONNX（推理更快，模型更小）
python convert_onnx.py -o sharp_fp16.onnx -q fp16 --validate

转换选项：

-c, --checkpoint：PyTorch 检查点路径（如未提供则从 Apple 下载）
-o, --output：输出 ONNX 模型路径
-q, --quantize：量化类型（fp16 表示半精度）
--validate：对照 PyTorch 参考验证转换后的模型
--input-image：用于验证的测试图像路径

依赖要求：

PyTorch 和 ml-sharp 源代码（自动下载）
ONNX 和 ONNX Runtime 用于验证

引用

如果您发现这项工作有用，请引用原始论文：

@inproceedings{Sharp2025:arxiv,
  title      = {Sharp Monocular View Synthesis in Less Than a Second},
  author     = {Lars Mescheder and Wei Dong and Shiwei Li and Xuyang Bai and Marcel Santos and Peiyun Hu and Bruno Lecouat and Mingmin Zhen and Ama\\"{e}l Delaunoy and Tian Fang and Yanghai Tsin and Stephan R. Richter and Vladlen Koltun},
  journal    = {arXiv preprint arXiv:2512.10685},
  year       = {2025},
  url        = {https://arxiv.org/abs/2512.10685},
}

pearsonkyle/Sharp-onnx

作者 pearsonkyle

image-to-3d ml-sharp

↓ 0 ♥ 0

创建时间: 2026-01-08 19:06:53+00:00

更新时间: 2026-01-17 05:05:16+00:00

在 Hugging Face 上查看

文件 (7)

.gitattributes

.gitignore

README.md

convert_onnx.py

inference_onnx.py

sharp_fp16.onnx ONNX

viewer.gif