返回模型

说明文档

AI Kit Gallery - 优化的 ONNX 视觉模型

本仓库包含为 AI Kit Gallery Android 应用优化的 ONNX 模型。这些模型可在移动设备上直接实现高性能、离线的 AI 图像搜索和分类功能。

📁 可用模型

CLIP 模型

文本编码器: clip_text_quantized.onnx (62MB)
- 输入: 文本标记（最大长度 77）
- 输出: 512维文本嵌入
- 优化: INT8 动态量化
- 用途: 为文本查询生成嵌入向量
视觉编码器: clip_vision_quantized.onnx (337MB)
- 输入: 224x224 RGB 图像
- 输出: 512维图像嵌入
- 优化: 全精度 (FP32) 以保持准确率
- 用途: 编码图像用于相似度搜索

ViT 模型

基础模型: vit_base_quantized.onnx (84MB)
- 输入: 224x224 RGB 图像
- 输出: 768维图像嵌入（CLS 标记）
- 优化: INT8 动态量化
- 用途: 替代的高质量视觉编码器

🚀 快速开始

1. 尝试交互式演示

您可以在 Hugging Face 上查看或下载演示笔记本： 查看 AI 模型演示

在 Colab 中运行：下载 .ipynb 文件并上传到 Google Colab。

2. 下载模型

# 安装 Hugging Face Hub
pip install huggingface_hub

# 下载 CLIP 模型
huggingface-cli download JanadaSroor/vision-models models/clip_text_quantized.onnx --local-dir .
huggingface-cli download JanadaSroor/vision-models models/clip_vision_quantized.onnx --local-dir .

# 下载 ViT 模型
huggingface-cli download JanadaSroor/vision-models models/vit_base_quantized.onnx --local-dir .

📊 模型规格

模型	原始大小	压缩后大小	量化	输入形状	输出形状
CLIP 文本	~120MB	62MB (⬇️ 48%)	✅ INT8	`[batch, 77]`	`[batch, 512]`
CLIP 视觉	~340MB	337MB	❌ FP32	`[batch, 3, 224, 224]`	`[batch, 512]`
ViT 基础	~340MB	84MB (⬇️ 75%)	✅ INT8	`[batch, 3, 224, 224]`	`[batch, 768]`

🏃 性能基准测试

在 Colab 的标准 T4 GPU 实例（CPU 模式）上测量的推理时间：

CLIP 文本 (INT8): ~12ms
CLIP 视觉 (FP32): ~65ms
ViT 基础 (INT8): ~55ms

注意：在现代 Android 设备（SD 8 Gen 1+）上的移动端性能预计会快 20-30%，这得益于 NPU/GPU 加速。

🔧 在 Android 中部署

这些模型已针对 ONNX Runtime Mobile 进行优化。

将 .onnx 文件复制到项目的 src/main/assets/ 目录。
使用 ONNX Runtime Kotlin/Java API 加载并运行推理：

val session = OrtSession.create(env, modelBytes, options)
val inputs = mapOf(\"input_ids\" to textTensor)
val results = session.run(inputs)

📈 优化详情

我们使用 Hugging Face Optimum 和 ONNX Runtime 量化 工具实现了这些结果：

动态量化: 应用于 CLIP 文本和 ViT 基础模型以减少内存占用。
算子融合: 将多个层合并为单个内核以加快执行速度。
精度调优: 保持 CLIP 视觉模型为 FP32，因为 INT8 量化会导致显著的准确率下降（>5%）。

🔍 使用场景

语义搜索: "给我看日落时山的照片。"
图像聚类: 自动将相似的照片分组。
快速标签: 无需云 API 即可检测物体和场景。

📄 许可证

本项目采用 MIT 许可证授权。模型受其各自原始许可证约束（CLIP 为 OpenAI，ViT 为 Google）。

由 JanadaSroor 维护 | 为 AI Kit Gallery 开发

JanadaSroor/vision-models

作者 JanadaSroor

feature-extraction

↓ 0 ♥ 0

创建时间: 2026-01-01 18:59:24+00:00

更新时间: 2026-01-01 20:03:40+00:00

在 Hugging Face 上查看

文件 (8)

.gitattributes

AI_Models_Demo.ipynb

LICENSE

README.md

models/clip_text_quantized.onnx ONNX

models/clip_vision_quantized.onnx ONNX

models/vit_base_quantized.onnx ONNX

requirements.txt