说明文档

Optimum RoBERTa-base-SQuAD2 量化版

本仓库包含 optimum/roberta-base-squad2 模型的量化版本，由 Branden Chan 等人开发。量化过程使用 Optimum ONNX 库进行，旨在减小模型大小并提高效率，同时保持可接受的精度。

模型测试使用了 rajpurkar/squad_v2 数据集验证集中的 600 个样本。

延迟降低:
- 原始模型: 每样本 0.572 秒
- 量化模型: 每样本 0.437 秒
- 分析: 延迟显著降低，使模型更适合实时应用。
效率提升:
- 总运行时间:
  - 原始模型: 343.20 秒
  - 量化模型: 262.41 秒
  - 分析: 总执行时间大幅减少。
- 每秒处理样本数:
  - 原始模型: 1.75 样本/秒
  - 量化模型: 2.29 样本/秒
  - 分析: 处理速率提高，允许在相同时间内处理更多样本。
精度保持:
- 精确匹配分数 (Exact Score):
  - 原始模型: 81.67
  - 量化模型: 80.5
  - 分析: 精度略有下降，但仍处于可接受水平。
- F1 分数:
  - 原始模型: 83.75
  - 量化模型: 82.49
  - 分析: F1 分数略有下降。
内存占用对比:
- 原始模型: 476.52 MB
- 量化模型: 122.41 MB
- 分析: 量化显著减少了内存占用，量化模型仅约为原始模型大小的 25.7%。

这些结果表明量化取得了成功，在保持问答任务可接受精度的同时，实现了延迟显著降低、效率提升以及内存空间的大幅节省。

作者 profdiovanimerlo

question-answering transformers

↓ 0 ♥ 0

创建时间: 2025-06-18 20:01:29+00:00

更新时间: 2025-06-18 20:02:45+00:00

.gitattributes

README.md

config.json

merges.txt

model_quantized.onnx ONNX

special_tokens_map.json

tokenizer.json

tokenizer_config.json

vocab.json