ONNX 模型库
返回模型

说明文档

AI Kit Gallery - 优化的 ONNX 视觉模型

View on Hugging Face Hugging Face

本仓库包含为 AI Kit Gallery Android 应用优化的 ONNX 模型。这些模型可在移动设备上直接实现高性能、离线的 AI 图像搜索和分类功能。

📁 可用模型

CLIP 模型

  • 文本编码器: clip_text_quantized.onnx (62MB)

    • 输入: 文本标记(最大长度 77)
    • 输出: 512维文本嵌入
    • 优化: INT8 动态量化
    • 用途: 为文本查询生成嵌入向量
  • 视觉编码器: clip_vision_quantized.onnx (337MB)

    • 输入: 224x224 RGB 图像
    • 输出: 512维图像嵌入
    • 优化: 全精度 (FP32) 以保持准确率
    • 用途: 编码图像用于相似度搜索

ViT 模型

  • 基础模型: vit_base_quantized.onnx (84MB)
    • 输入: 224x224 RGB 图像
    • 输出: 768维图像嵌入(CLS 标记)
    • 优化: INT8 动态量化
    • 用途: 替代的高质量视觉编码器

🚀 快速开始

1. 尝试交互式演示

您可以在 Hugging Face 上查看或下载演示笔记本: 查看 AI 模型演示

在 Colab 中运行:下载 .ipynb 文件并上传到 Google Colab

2. 下载模型

# 安装 Hugging Face Hub
pip install huggingface_hub

# 下载 CLIP 模型
huggingface-cli download JanadaSroor/vision-models models/clip_text_quantized.onnx --local-dir .
huggingface-cli download JanadaSroor/vision-models models/clip_vision_quantized.onnx --local-dir .

# 下载 ViT 模型
huggingface-cli download JanadaSroor/vision-models models/vit_base_quantized.onnx --local-dir .

📊 模型规格

模型 原始大小 压缩后大小 量化 输入形状 输出形状
CLIP 文本 ~120MB 62MB (⬇️ 48%) ✅ INT8 [batch, 77] [batch, 512]
CLIP 视觉 ~340MB 337MB ❌ FP32 [batch, 3, 224, 224] [batch, 512]
ViT 基础 ~340MB 84MB (⬇️ 75%) ✅ INT8 [batch, 3, 224, 224] [batch, 768]

🏃 性能基准测试

在 Colab 的标准 T4 GPU 实例(CPU 模式)上测量的推理时间:

  • CLIP 文本 (INT8): ~12ms
  • CLIP 视觉 (FP32): ~65ms
  • ViT 基础 (INT8): ~55ms

注意:在现代 Android 设备(SD 8 Gen 1+)上的移动端性能预计会快 20-30%,这得益于 NPU/GPU 加速。

🔧 在 Android 中部署

这些模型已针对 ONNX Runtime Mobile 进行优化。

  1. .onnx 文件复制到项目的 src/main/assets/ 目录。
  2. 使用 ONNX Runtime Kotlin/Java API 加载并运行推理:
val session = OrtSession.create(env, modelBytes, options)
val inputs = mapOf(\"input_ids\" to textTensor)
val results = session.run(inputs)

📈 优化详情

我们使用 Hugging Face OptimumONNX Runtime 量化 工具实现了这些结果:

  • 动态量化: 应用于 CLIP 文本和 ViT 基础模型以减少内存占用。
  • 算子融合: 将多个层合并为单个内核以加快执行速度。
  • 精度调优: 保持 CLIP 视觉模型为 FP32,因为 INT8 量化会导致显著的准确率下降(>5%)。

🔍 使用场景

  • 语义搜索: "给我看日落时山的照片。"
  • 图像聚类: 自动将相似的照片分组。
  • 快速标签: 无需云 API 即可检测物体和场景。

📄 许可证

本项目采用 MIT 许可证授权。模型受其各自原始许可证约束(CLIP 为 OpenAI,ViT 为 Google)。


JanadaSroor 维护 | 为 AI Kit Gallery 开发

JanadaSroor/vision-models

作者 JanadaSroor

feature-extraction
↓ 0 ♥ 0

创建时间: 2026-01-01 18:59:24+00:00

更新时间: 2026-01-01 20:03:40+00:00

在 Hugging Face 上查看

文件 (8)

.gitattributes
AI_Models_Demo.ipynb
LICENSE
README.md
models/clip_text_quantized.onnx ONNX
models/clip_vision_quantized.onnx ONNX
models/vit_base_quantized.onnx ONNX
requirements.txt