ONNX 模型库

说明文档

DocType - 文档图像分类

一个基于 MobileNetV3 的高性能文档分类器，可将文档图像分类为 7 种不同类型。针对生产环境部署进行了 ONNX 格式优化。

🎯 模型概述

该模型将文档图像分类为以下类别：

类别	描述
chart	图表、图形和数据可视化
diagram	流程图、示意图和技术图纸
document_handwritten	手写文档和笔记
document_printed	打印文本文档
map	地图和地理可视化
photo	照片和自然图像
screenshot	截图和屏幕捕获

🚀 性能

模型指标

架构: MobileNetV3-Large (迁移学习 + 微调)
输入尺寸: 320×320 像素
参数量: 约 540 万（轻量高效）
推理时间: CPU 上约 10-30 毫秒（取决于硬件）

训练详情

数据集规模: 21,000 张图像（17,500 训练 / 2,100 验证 / 1,400 测试）
训练策略:
- 第一阶段：冻结基础网络的迁移学习（40 轮）
- 第二阶段：全模型微调（20 轮）
数据增强: 旋转、平移、缩放、亮度变化
优化器: Adam（学习率 0.001 → 1e-5 用于微调）

📮 引用

如果您在研究或项目中使用此模型，请引用。

monkt/doctype

作者 monkt

image-classification

↓ 0 ♥ 1

创建时间: 2025-10-05 06:00:51+00:00

更新时间: 2025-10-07 05:40:07+00:00

在 Hugging Face 上查看

文件 (3)

.gitattributes

README.md

doctype_classifier.onnx ONNX