返回模型
说明文档
ONNX Vision Transformer(小型模型)使用 DINOv2 训练
Vision Transformer (ViT) 模型,使用 DINOv2 方法进行训练。该模型由 Oquab 等人在论文 DINOv2: Learning Robust Visual Features without Supervision 中提出,并首次在此仓库中发布。 该模型已导出为 ONNX 格式。
模型描述
Vision Transformer (ViT) 是一种 Transformer 编码器模型(类似于 BERT),通过自监督方式在大规模图像集合上进行预训练。
图像以固定尺寸 patch(图像块)序列的形式输入模型,这些 patch 经过线性嵌入。同时,在序列开头添加一个 [CLS] token,用于分类任务。在将序列输入 Transformer 编码器层之前,还会添加绝对位置嵌入。
请注意,此模型不包含任何微调过的分类头。
通过预训练,模型学习到了图像的内部表示,可用于提取对下游任务有用的特征:例如,如果你有带标签的图像数据集,可以在预训练编码器之上放置一个线性层来训练标准分类器。通常会在 [CLS] token 之上放置一个线性层,因为该 token 的最后隐藏状态可以被视为整张图像的表示。
模型属性:
- 输入名称:input
- 输出名称:output
- 输入尺寸:224x224
- 输出尺寸:384
预期用途与限制
你可以使用 ONNXRuntime 调用此 ONNX 模型进行特征提取。
如何使用
可以使用 ONNXRuntime 执行模型。示例用法可在 dinov2_onnx 仓库中找到。
git clone git@github.com:sefaburakokcu/dinov2_onnx.git
cd dinov2_onnx
python onnx_inference.py
可选参数:
--onnx_model:ONNX 模型文件的路径(默认值:./dinov2_vits14.onnx)。--image_folder:包含输入图像的文件夹路径(默认值:./inputs/)。
BibTeX 条目和引用信息
misc{oquab2023dinov2,
title={DINOv2: Learning Robust Visual Features without Supervision},
author={Maxime Oquab and Timothée Darcet and Théo Moutakanni and Huy Vo and Marc Szafraniec and Vasil Khalidov and Pierre Fernandez and Daniel Haziza and Francisco Massa and Alaaeldin El-Nouby and Mahmoud Assran and Nicolas Ballas and Wojciech Galuba and Russell Howes and Po-Yao Huang and Shang-Wen Li and Ishan Misra and Michael Rabbat and Vasu Sharma and Gabriel Synnaeve and Hu Xu and Hervé Jegou and Julien Mairal and Patrick Labatut and Armand Joulin and Piotr Bojanowski},
year={2023},
eprint={2304.07193},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
sefaburak/dinov2-small-onnx
作者 sefaburak
feature-extraction
↓ 0
♥ 1
创建时间: 2024-01-07 15:12:35+00:00
更新时间: 2024-01-07 18:16:17+00:00
在 Hugging Face 上查看文件 (3)
.gitattributes
README.md
dinov2_vits14.onnx
ONNX