ONNX 模型库
返回模型

说明文档

DocType - 文档图像分类

一个基于 MobileNetV3 的高性能文档分类器,可将文档图像分类为 7 种不同类型。针对生产环境部署进行了 ONNX 格式优化。

🎯 模型概述

该模型将文档图像分类为以下类别:

类别 描述
chart 图表、图形和数据可视化
diagram 流程图、示意图和技术图纸
document_handwritten 手写文档和笔记
document_printed 打印文本文档
map 地图和地理可视化
photo 照片和自然图像
screenshot 截图和屏幕捕获

🚀 性能

模型指标

  • 架构: MobileNetV3-Large (迁移学习 + 微调)
  • 输入尺寸: 320×320 像素
  • 参数量: 约 540 万(轻量高效)
  • 推理时间: CPU 上约 10-30 毫秒(取决于硬件)

训练详情

  • 数据集规模: 21,000 张图像(17,500 训练 / 2,100 验证 / 1,400 测试)
  • 训练策略:
    • 第一阶段:冻结基础网络的迁移学习(40 轮)
    • 第二阶段:全模型微调(20 轮)
  • 数据增强: 旋转、平移、缩放、亮度变化
  • 优化器: Adam(学习率 0.001 → 1e-5 用于微调)

📮 引用

如果您在研究或项目中使用此模型,请引用。

monkt/doctype

作者 monkt

image-classification
↓ 0 ♥ 1

创建时间: 2025-10-05 06:00:51+00:00

更新时间: 2025-10-07 05:40:07+00:00

在 Hugging Face 上查看

文件 (3)

.gitattributes
README.md
doctype_classifier.onnx ONNX