ONNX 模型库
返回模型

说明文档

Optimum RoBERTa-base-SQuAD2 量化版

简介

本仓库包含 optimum/roberta-base-squad2 模型的量化版本,由 Branden Chan 等人开发。量化过程使用 Optimum ONNX 库进行,旨在减小模型大小并提高效率,同时保持可接受的精度。

评估

模型测试使用了 rajpurkar/squad_v2 数据集验证集中的 600 个样本。

  1. 延迟降低:

    • 原始模型: 每样本 0.572 秒
    • 量化模型: 每样本 0.437 秒
    • 分析: 延迟显著降低,使模型更适合实时应用。
  2. 效率提升:

    • 总运行时间:
      • 原始模型: 343.20 秒
      • 量化模型: 262.41 秒
      • 分析: 总执行时间大幅减少。
    • 每秒处理样本数:
      • 原始模型: 1.75 样本/秒
      • 量化模型: 2.29 样本/秒
      • 分析: 处理速率提高,允许在相同时间内处理更多样本。
  3. 精度保持:

    • 精确匹配分数 (Exact Score):
      • 原始模型: 81.67
      • 量化模型: 80.5
      • 分析: 精度略有下降,但仍处于可接受水平。
    • F1 分数:
      • 原始模型: 83.75
      • 量化模型: 82.49
      • 分析: F1 分数略有下降。
  4. 内存占用对比:

    • 原始模型: 476.52 MB
    • 量化模型: 122.41 MB
    • 分析: 量化显著减少了内存占用,量化模型仅约为原始模型大小的 25.7%。

这些结果表明量化取得了成功,在保持问答任务可接受精度的同时,实现了延迟显著降低、效率提升以及内存空间的大幅节省。

profdiovanimerlo/ONNX-quantizado-roberta-base-squad2

作者 profdiovanimerlo

question-answering transformers
↓ 0 ♥ 0

创建时间: 2025-06-18 20:01:29+00:00

更新时间: 2025-06-18 20:02:45+00:00

在 Hugging Face 上查看

文件 (9)

.gitattributes
README.md
config.json
merges.txt
model_quantized.onnx ONNX
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json