返回模型
说明文档
AI Kit Gallery - 优化的 ONNX 视觉模型
本仓库包含为 AI Kit Gallery Android 应用优化的 ONNX 模型。这些模型可在移动设备上直接实现高性能、离线的 AI 图像搜索和分类功能。
📁 可用模型
CLIP 模型
-
文本编码器:
clip_text_quantized.onnx(62MB)- 输入: 文本标记(最大长度 77)
- 输出: 512维文本嵌入
- 优化: INT8 动态量化
- 用途: 为文本查询生成嵌入向量
-
视觉编码器:
clip_vision_quantized.onnx(337MB)- 输入: 224x224 RGB 图像
- 输出: 512维图像嵌入
- 优化: 全精度 (FP32) 以保持准确率
- 用途: 编码图像用于相似度搜索
ViT 模型
- 基础模型:
vit_base_quantized.onnx(84MB)- 输入: 224x224 RGB 图像
- 输出: 768维图像嵌入(CLS 标记)
- 优化: INT8 动态量化
- 用途: 替代的高质量视觉编码器
🚀 快速开始
1. 尝试交互式演示
您可以在 Hugging Face 上查看或下载演示笔记本: 查看 AI 模型演示
在 Colab 中运行:下载 .ipynb 文件并上传到 Google Colab。
2. 下载模型
# 安装 Hugging Face Hub
pip install huggingface_hub
# 下载 CLIP 模型
huggingface-cli download JanadaSroor/vision-models models/clip_text_quantized.onnx --local-dir .
huggingface-cli download JanadaSroor/vision-models models/clip_vision_quantized.onnx --local-dir .
# 下载 ViT 模型
huggingface-cli download JanadaSroor/vision-models models/vit_base_quantized.onnx --local-dir .
📊 模型规格
| 模型 | 原始大小 | 压缩后大小 | 量化 | 输入形状 | 输出形状 |
|---|---|---|---|---|---|
| CLIP 文本 | ~120MB | 62MB (⬇️ 48%) | ✅ INT8 | [batch, 77] |
[batch, 512] |
| CLIP 视觉 | ~340MB | 337MB | ❌ FP32 | [batch, 3, 224, 224] |
[batch, 512] |
| ViT 基础 | ~340MB | 84MB (⬇️ 75%) | ✅ INT8 | [batch, 3, 224, 224] |
[batch, 768] |
🏃 性能基准测试
在 Colab 的标准 T4 GPU 实例(CPU 模式)上测量的推理时间:
- CLIP 文本 (INT8): ~12ms
- CLIP 视觉 (FP32): ~65ms
- ViT 基础 (INT8): ~55ms
注意:在现代 Android 设备(SD 8 Gen 1+)上的移动端性能预计会快 20-30%,这得益于 NPU/GPU 加速。
🔧 在 Android 中部署
这些模型已针对 ONNX Runtime Mobile 进行优化。
- 将
.onnx文件复制到项目的src/main/assets/目录。 - 使用 ONNX Runtime Kotlin/Java API 加载并运行推理:
val session = OrtSession.create(env, modelBytes, options)
val inputs = mapOf(\"input_ids\" to textTensor)
val results = session.run(inputs)
📈 优化详情
我们使用 Hugging Face Optimum 和 ONNX Runtime 量化 工具实现了这些结果:
- 动态量化: 应用于 CLIP 文本和 ViT 基础模型以减少内存占用。
- 算子融合: 将多个层合并为单个内核以加快执行速度。
- 精度调优: 保持 CLIP 视觉模型为 FP32,因为 INT8 量化会导致显著的准确率下降(>5%)。
🔍 使用场景
- 语义搜索: "给我看日落时山的照片。"
- 图像聚类: 自动将相似的照片分组。
- 快速标签: 无需云 API 即可检测物体和场景。
📄 许可证
本项目采用 MIT 许可证授权。模型受其各自原始许可证约束(CLIP 为 OpenAI,ViT 为 Google)。
由 JanadaSroor 维护 | 为 AI Kit Gallery 开发
JanadaSroor/vision-models
作者 JanadaSroor
feature-extraction
↓ 0
♥ 0
创建时间: 2026-01-01 18:59:24+00:00
更新时间: 2026-01-01 20:03:40+00:00
在 Hugging Face 上查看文件 (8)
.gitattributes
AI_Models_Demo.ipynb
LICENSE
README.md
models/clip_text_quantized.onnx
ONNX
models/clip_vision_quantized.onnx
ONNX
models/vit_base_quantized.onnx
ONNX
requirements.txt