说明文档

NanoSAM：面向边缘部署的加速版 Segment Anything 模型

GitHub
Demo

预训练模型

NanoSAM 在边缘设备上的性能表现。延迟/吞吐量在 NVIDIA Jetson Xavier NX 和 NVIDIA T4 GPU 上使用 TensorRT、fp16 进行测量。包含数据传输时间。

图像编码器	CPU	Jetson Xavier NX	T4	模型大小	下载
PPHGV2-B1	110ms	9.6ms	2.4ms	12.7MB	链接
PPHGV2-B2	200ms	12.4ms	3.2ms	29.5MB	链接
PPHGV2-B4	300ms	17.3ms	4.1ms	61.4MB	链接
ResNet18	500ms	22.4ms	5.8ms	63.2MB	链接
EfficientViT-L0	1s	31.6ms	6ms	117.5MB	-

在 COCO2017 验证集上的零样本实例分割

图像编码器	mAP<sup>mask<br>50-95	mIoU (全部)	mIoU (大)	mIoU (中)	mIoU (小)
ResNet18	-	70.6	79.6	73.8	62.4
MobileSAM	-	72.8	80.4	75.9	65.8
PPHGV2-B1	41.2	75.6	81.2	77.4	70.8
PPHGV2-B2	42.6	76.5	82.2	78.5	71.5
PPHGV2-B4	44.0	77.3	83.0	79.7	72.1
EfficientViT-L0	45.6	78.6	83.7	81.0	73.3

使用方法

from nanosam.utils.predictor import Predictor

image_encoder_cfg = {
    \"path\": \"data/sam_hgv2_b4_ln_nonorm_image_encoder.onnx\",
    \"name\": \"OnnxModel\",
    \"provider\": \"cpu\",
    \"normalize_input\": False,
}
mask_decoder_cfg = {
    \"path\": \"data/efficientvit_l0_mask_decoder.onnx\",
    \"name\": \"OnnxModel\",
    \"provider\": \"cpu\",
}
predictor = Predictor(encoder_cfg, decoder_cfg)

image = PIL.Image.open(\"assets/dogs.jpg\")

predictor.set_image(image)

mask, _, _ = predictor.predict(np.array([[x, y]]), np.array([1]))

点标签可以是

点标签	描述
0	背景点
1	前景点
2	边界框左上角
3	边界框右下角

dragonSwing/nanosam

作者 dragonSwing

mask-generation

↓ 0 ♥ 0

创建时间: 2024-03-27 02:27:05+00:00

更新时间: 2024-03-31 12:56:31+00:00

在 Hugging Face 上查看

文件 (28)

.gitattributes

README.md

efficientvit_l0_mask_decoder.onnx ONNX

mobile_sam_mask_decoder.onnx ONNX

op11/sam_hgv2_b1_nonorm_image_encoder.onnx ONNX

op11/sam_hgv2_b2_nonorm_image_encoder.onnx ONNX

op11/sam_hgv2_b4_image_encoder.onnx ONNX

op11/sam_hgv2_b4_nonorm_image_encoder.onnx ONNX

pretrained/Sam_PPHGNetV2_B1/inference/inference.pdiparams

pretrained/Sam_PPHGNetV2_B1/inference/inference.pdiparams.info

pretrained/Sam_PPHGNetV2_B1/inference/inference.pdmodel

pretrained/Sam_PPHGNetV2_B1/sam_hgv2_b1_latest.pdparams

pretrained/Sam_PPHGNetV2_B2/inference/inference.pdiparams

pretrained/Sam_PPHGNetV2_B2/inference/inference.pdiparams.info

pretrained/Sam_PPHGNetV2_B2/inference/inference.pdmodel

pretrained/Sam_PPHGNetV2_B2/sam_hgv2_b2_latest.pdparams

pretrained/Sam_PPHGNetV2_B4/inference/inference.pdiparams

pretrained/Sam_PPHGNetV2_B4/inference/inference.pdiparams.info

pretrained/Sam_PPHGNetV2_B4/inference/inference.pdmodel

pretrained/Sam_PPHGNetV2_B4/sam_hgv2_b4_latest.pdparams

pretrained/Sam_PPHGNetV2_B4_norm/inference/inference.pdiparams

pretrained/Sam_PPHGNetV2_B4_norm/inference/inference.pdiparams.info

pretrained/Sam_PPHGNetV2_B4_norm/inference/inference.pdmodel

pretrained/Sam_PPHGNetV2_B4_norm/sam_hgv2_b4_norm_latest.pdparams

sam_hgv2_b1_ln_nonorm_image_encoder.onnx ONNX

sam_hgv2_b2_ln_nonorm_image_encoder.onnx ONNX

sam_hgv2_b4_ln_image_encoder.onnx ONNX

sam_hgv2_b4_ln_nonorm_image_encoder.onnx ONNX