返回模型
说明文档
DocType - 文档图像分类
一个基于 MobileNetV3 的高性能文档分类器,可将文档图像分类为 7 种不同类型。针对生产环境部署进行了 ONNX 格式优化。
🎯 模型概述
该模型将文档图像分类为以下类别:
| 类别 | 描述 |
|---|---|
| chart | 图表、图形和数据可视化 |
| diagram | 流程图、示意图和技术图纸 |
| document_handwritten | 手写文档和笔记 |
| document_printed | 打印文本文档 |
| map | 地图和地理可视化 |
| photo | 照片和自然图像 |
| screenshot | 截图和屏幕捕获 |
🚀 性能
模型指标
- 架构: MobileNetV3-Large (迁移学习 + 微调)
- 输入尺寸: 320×320 像素
- 参数量: 约 540 万(轻量高效)
- 推理时间: CPU 上约 10-30 毫秒(取决于硬件)
训练详情
- 数据集规模: 21,000 张图像(17,500 训练 / 2,100 验证 / 1,400 测试)
- 训练策略:
- 第一阶段:冻结基础网络的迁移学习(40 轮)
- 第二阶段:全模型微调(20 轮)
- 数据增强: 旋转、平移、缩放、亮度变化
- 优化器: Adam(学习率 0.001 → 1e-5 用于微调)
📮 引用
如果您在研究或项目中使用此模型,请引用。
monkt/doctype
作者 monkt
image-classification
↓ 0
♥ 1
创建时间: 2025-10-05 06:00:51+00:00
更新时间: 2025-10-07 05:40:07+00:00
在 Hugging Face 上查看文件 (3)
.gitattributes
README.md
doctype_classifier.onnx
ONNX