说明文档

ONNX Vision Transformer（小型模型）使用 DINOv2 训练

Vision Transformer (ViT) 模型，使用 DINOv2 方法进行训练。该模型由 Oquab 等人在论文 DINOv2: Learning Robust Visual Features without Supervision 中提出，并首次在此仓库中发布。该模型已导出为 ONNX 格式。

模型描述

Vision Transformer (ViT) 是一种 Transformer 编码器模型（类似于 BERT），通过自监督方式在大规模图像集合上进行预训练。

图像以固定尺寸 patch（图像块）序列的形式输入模型，这些 patch 经过线性嵌入。同时，在序列开头添加一个 [CLS] token，用于分类任务。在将序列输入 Transformer 编码器层之前，还会添加绝对位置嵌入。

请注意，此模型不包含任何微调过的分类头。

通过预训练，模型学习到了图像的内部表示，可用于提取对下游任务有用的特征：例如，如果你有带标签的图像数据集，可以在预训练编码器之上放置一个线性层来训练标准分类器。通常会在 [CLS] token 之上放置一个线性层，因为该 token 的最后隐藏状态可以被视为整张图像的表示。

模型属性：

输入名称：input
输出名称：output
输入尺寸：224x224
输出尺寸：384

预期用途与限制

你可以使用 ONNXRuntime 调用此 ONNX 模型进行特征提取。

如何使用

可以使用 ONNXRuntime 执行模型。示例用法可在 dinov2_onnx 仓库中找到。

git clone git@github.com:sefaburakokcu/dinov2_onnx.git
cd dinov2_onnx

python onnx_inference.py

可选参数：

--onnx_model：ONNX 模型文件的路径（默认值：./dinov2_vits14.onnx）。
--image_folder：包含输入图像的文件夹路径（默认值：./inputs/）。

BibTeX 条目和引用信息

misc{oquab2023dinov2,
      title={DINOv2: Learning Robust Visual Features without Supervision}, 
      author={Maxime Oquab and Timothée Darcet and Théo Moutakanni and Huy Vo and Marc Szafraniec and Vasil Khalidov and Pierre Fernandez and Daniel Haziza and Francisco Massa and Alaaeldin El-Nouby and Mahmoud Assran and Nicolas Ballas and Wojciech Galuba and Russell Howes and Po-Yao Huang and Shang-Wen Li and Ishan Misra and Michael Rabbat and Vasu Sharma and Gabriel Synnaeve and Hu Xu and Hervé Jegou and Julien Mairal and Patrick Labatut and Armand Joulin and Piotr Bojanowski},
      year={2023},
      eprint={2304.07193},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

sefaburak/dinov2-small-onnx

作者 sefaburak

feature-extraction

↓ 0 ♥ 1

创建时间: 2024-01-07 15:12:35+00:00

更新时间: 2024-01-07 18:16:17+00:00

在 Hugging Face 上查看

文件 (3)

.gitattributes

README.md

dinov2_vits14.onnx ONNX