返回模型
说明文档
Optimum RoBERTa-base-SQuAD2 量化版
简介
本仓库包含 optimum/roberta-base-squad2 模型的量化版本,由 Branden Chan 等人开发。量化过程使用 Optimum ONNX 库进行,旨在减小模型大小并提高效率,同时保持可接受的精度。
评估
模型测试使用了 rajpurkar/squad_v2 数据集验证集中的 600 个样本。
-
延迟降低:
- 原始模型: 每样本 0.572 秒
- 量化模型: 每样本 0.437 秒
- 分析: 延迟显著降低,使模型更适合实时应用。
-
效率提升:
- 总运行时间:
- 原始模型: 343.20 秒
- 量化模型: 262.41 秒
- 分析: 总执行时间大幅减少。
- 每秒处理样本数:
- 原始模型: 1.75 样本/秒
- 量化模型: 2.29 样本/秒
- 分析: 处理速率提高,允许在相同时间内处理更多样本。
- 总运行时间:
-
精度保持:
- 精确匹配分数 (Exact Score):
- 原始模型: 81.67
- 量化模型: 80.5
- 分析: 精度略有下降,但仍处于可接受水平。
- F1 分数:
- 原始模型: 83.75
- 量化模型: 82.49
- 分析: F1 分数略有下降。
- 精确匹配分数 (Exact Score):
-
内存占用对比:
- 原始模型: 476.52 MB
- 量化模型: 122.41 MB
- 分析: 量化显著减少了内存占用,量化模型仅约为原始模型大小的 25.7%。
这些结果表明量化取得了成功,在保持问答任务可接受精度的同时,实现了延迟显著降低、效率提升以及内存空间的大幅节省。
profdiovanimerlo/ONNX-quantizado-roberta-base-squad2
作者 profdiovanimerlo
question-answering
transformers
↓ 0
♥ 0
创建时间: 2025-06-18 20:01:29+00:00
更新时间: 2025-06-18 20:02:45+00:00
在 Hugging Face 上查看文件 (9)
.gitattributes
README.md
config.json
merges.txt
model_quantized.onnx
ONNX
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json