ONNX 模型库
返回模型

说明文档

gelectra-base-germanquad (ONNX)

这是 deepset/gelectra-base-germanquad 的 ONNX 版本。它通过 此 Hugging Face Space 自动转换并上传。

使用 Transformers.js

请参阅 question-answering 的管道文档:https://huggingface.co/docs/transformers.js/api/pipelines#module_pipelines.QuestionAnsweringPipeline


gelectra-base 抽取式问答模型

概述

语言模型: gelectra-base-germanquad
语言: 德语
训练数据: GermanQuAD 训练集(约 12MB)
评估数据: GermanQuAD 测试集(约 5MB)
基础设施:1x V100 GPU
代码: 参见使用 Haystack 构建的抽取式问答管道示例
发布日期:2021年4月21日

详情

  • 我们以 gelectra-base 模型为基础,训练了一个德语问答模型。
  • 数据集为 GermanQuAD,这是一个新的德语数据集,由我们手工标注并在线发布
  • 训练数据集采用单向标注,包含 11518 个问题和 11518 个答案;测试数据集采用三向标注,共有 2204 个问题和 2204·3−76 = 6536 个答案(我们移除了 76 个错误答案)。

更多详情及 SQuAD 格式的数据集下载,请参见 https://deepset.ai/germanquad。

超参数

batch_size = 24
n_epochs = 2
max_seq_len = 384
learning_rate = 3e-5
lr_schedule = LinearWarmup
embeds_dropout_prob = 0.1

用法

在 Haystack 中使用

Haystack 是一个 AI 编排框架,用于构建可定制、可生产的 LLM 应用程序。您可以在 Haystack 中使用此模型对文档进行抽取式问答。 使用 Haystack 加载并运行模型:

# 运行 pip install haystack-ai "transformers[torch,sentencepiece]" 后

from haystack import Document
from haystack.components.readers import ExtractiveReader

docs = [
    Document(content="Python is a popular programming language"),
    Document(content="python ist eine beliebte Programmiersprache"),
]

reader = ExtractiveReader(model="deepset/gelectra-base-germanquad")
reader.warm_up()

question = "What is a popular programming language?"
result = reader.run(query=question, documents=docs)
# {'answers': [ExtractedAnswer(query='What is a popular programming language?', score=0.5740374326705933, data='python', document=Document(id=..., content: '...'), context=None, document_offset=ExtractedAnswer.Span(start=0, end=6),...)]}

如需查看可扩展到大量文档的完整抽取式问答管道示例,请参阅相应的 Haystack 教程

在 Transformers 中使用

from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline

model_name = "deepset/gelectra-base-germanquad"

# a) 获取预测结果
nlp = pipeline('question-answering', model=model_name, tokenizer=model_name)
QA_input = {
    'question': 'Why is model conversion important?',
    'context': 'The option to convert models between FARM and transformers gives freedom to the user and let people easily switch between frameworks.'
}
res = nlp(QA_input)

# b) 加载模型和分词器
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

性能

我们在 GermanQuAD 测试集上评估了抽取式问答的性能。 模型类型和训练数据已包含在模型名称中。 对于 XLM-Roberta 的微调,我们使用英语 SQuAD v2.0 数据集。 GELECTRA 模型先在 SQuAD v1.1 的德语翻译版本上进行预热启动,然后在 GermanQuAD 上进行微调。 人工基线是通过在三向测试集上取一个答案作为预测,另外两个作为真实值计算得出的。
性能表格

作者

Timo Möller: timo.moeller@deepset.ai
Julian Risch: julian.risch@deepset.ai
Malte Pietsch: malte.pietsch@deepset.ai

关于我们

<div class="grid lg:grid-cols-2 gap-x-4 gap-y-3"> <div class="w-full h-40 object-cover mb-2 rounded-lg flex items-center justify-center"> <img alt="" src="https://raw.githubusercontent.com/deepset-ai/.github/main/deepset-logo-colored.png" class="w-40"/> </div> <div class="w-full h-40 object-cover mb-2 rounded-lg flex items-center justify-center"> <img alt="" src="https://raw.githubusercontent.com/deepset-ai/.github/main/haystack-logo-colored.png" class="w-40"/> </div> </div>

deepset 是可生产的开源 AI 框架 Haystack 背后的公司。

我们的其他工作:

联系我们并加入 Haystack 社区

<p>欲了解更多关于 Haystack 的信息,请访问我们的 <strong><a href="https://github.com/deepset-ai/haystack">GitHub</a></strong> 仓库和 <strong><a href="https://docs.haystack.deepset.ai">文档</a></strong>。

我们还有一个<strong><a class="h-7" href="https://haystack.deepset.ai/community">对所有人开放的 Discord 社区!</a></strong></p>

Twitter | LinkedIn | Discord | GitHub Discussions | 网站 | YouTube

顺便说一下:我们在招人!

onnx-community/gelectra-base-germanquad-ONNX

作者 onnx-community

question-answering transformers.js
↓ 1 ♥ 0

创建时间: 2026-01-16 17:10:34+00:00

更新时间: 2026-01-16 17:10:44+00:00

在 Hugging Face 上查看

文件 (16)

.gitattributes
README.md
config.json
onnx/model.onnx ONNX
onnx/model_bnb4.onnx ONNX
onnx/model_fp16.onnx ONNX
onnx/model_int8.onnx ONNX
onnx/model_q4.onnx ONNX
onnx/model_q4f16.onnx ONNX
onnx/model_quantized.onnx ONNX
onnx/model_uint8.onnx ONNX
quantize_config.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.txt