ONNX 模型库
返回模型

说明文档

TinyBERT 命名实体识别演示模型(德语)

模型描述

该模型是一个经过微调的 TinyBERT 模型,用于德语医学文本中 DISORDER_FINDING 实体的命名实体识别(NER)。

它是基于 DedalusHealthCare/tinybert-mlm-de 掩码语言模型,使用 DedalusHealthCare/ner_demo_de 数据集进行微调的。

基础模型DedalusHealthCare/tinybert-mlm-de

训练数据集DedalusHealthCare/ner_demo_de

任务:标记分类(命名实体识别)

语言:德语(de)

实体类型:DISORDER_FINDING

模型格式:PYTORCH+ONNX

请在 NER 管道中使用 max 作为聚合策略(参见下方示例)

训练详情

  • 训练轮数:1
  • 学习率:N/A
  • 训练批次大小:32
  • 评估批次大小:32
  • 最大序列长度:256
  • 预热步数:N/A
  • FP16:False
  • 梯度累积步数:2
  • 评估累积步数:2
  • 保存步数:15000
  • 评估步数:10000
  • 评估策略:steps
  • 随机种子:33
  • 标记全部词元:True
  • 平衡训练:False
  • 分块模式:sliding_window
  • 步幅:16
  • 最大训练样本数:None
  • 最大评估样本数:10000
  • 早停耐心值:0
  • 早停阈值:0.0

用例配置

  • 用例名称:demo
  • 语言:德语(de)
  • 目标实体:DISORDER_FINDING
  • 文本处理最大长度:N/A
  • 实体标注方案:N/A

使用方法

使用 Transformers 管道

from transformers import pipeline

# 加载模型
ner_pipeline = pipeline(
    \"ner\",
    model=\"DedalusHealthCare/tinybert-ner-demo-de\",
    tokenizer=\"DedalusHealthCare/tinybert-ner-demo-de\",
    aggregation_strategy=\"max\"
)

# 示例文本
text = \"Der Patient hat Diabetes und Bluthochdruck.\"

# 获取预测结果
entities = ner_pipeline(text)
print(entities)

使用 AutoModel 和 AutoTokenizer

from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch

# 加载模型和分词器
model_name = \"DedalusHealthCare/tinybert-ner-demo-de\"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

# 分词
text = \"Der Patient hat Diabetes und Bluthochdruck.\"
tokens = tokenizer(text, return_tensors=\"pt\", truncation=True, padding=True)

# 获取预测结果
with torch.no_grad():
    outputs = model(**tokens)
    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)

# 获取标签
predicted_token_class_ids = predictions.argmax(-1)
labels = [model.config.id2label[id.item()] for id in predicted_token_class_ids[0]]

使用 ONNX Runtime(优化推理)

from optimum.onnxruntime import ORTModelForTokenClassification
from transformers import AutoTokenizer, pipeline
import torch

# 加载 ONNX 模型以实现更快的推理
model_name = \"DedalusHealthCare/tinybert-ner-demo-de\"
onnx_model = ORTModelForTokenClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 使用 ONNX 模型创建管道(推荐)
ner_pipeline = pipeline(
    \"ner\",
    model=onnx_model,
    tokenizer=tokenizer,
    aggregation_strategy=\"max\"
)

# 示例文本
text = \"Der Patient hat Diabetes und Bluthochdruck.\"
entities = ner_pipeline(text)
print(entities)

# 直接使用模型
inputs = tokenizer(text, return_tensors=\"pt\", truncation=True, padding=True)
with torch.no_grad():
    outputs = onnx_model(**inputs)
    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)

predicted_token_class_ids = predictions.argmax(-1)
token_labels = [onnx_model.config.id2label[id.item()] for id in predicted_token_class_ids[0]]

性能比较

  • PyTorch:标准格式,适用于训练和研究
  • ONNX:针对推理进行优化,通常比 PyTorch 快 2-4 倍
  • 推荐:生产环境推理使用 ONNX,研究使用 PyTorch

模型架构

该模型基于 TinyBERT 架构,带有用于命名实体识别的标记分类头。

预期用途

该模型适用于:

  • 德语医学文本中的命名实体识别
  • 识别 DISORDER_FINDING 实体
  • 医学文本处理和分析
  • 医学自然语言处理的研究与开发

局限性

  • 专门针对德语医学文本进行训练
  • 在不同医学领域的文本上性能可能有所不同
  • 可能无法很好地泛化到非医学文本
  • 需要在新数据集上进行仔细评估

伦理考量

  • 该模型基于医学数据训练,应负责任地使用
  • 输出结果应由医学专业人员验证
  • 必须遵守患者隐私和数据保护法规
  • 模型可能存在训练数据中的偏差

模型性能

该模型已在 ner_disorderfinding_de_goldset 的黄金标准集上使用 IO 评估(sklearn,标记级别,宽松标准)进行了评估,结果如下:

整体性能

指标 分数
精确率(宏平均) 0.423825
召回率(宏平均) 0.467183
F1分数(宏平均) 0.435170
精确率(加权) 0.599471
召回率(加权) 0.697989
F1分数(加权) 0.640426

推理性能:评估数据集耗时 5.53 秒

实体级别性能(IO 评估)

实体类型 精确率 召回率 F1分数 支持数
DISORDER_FINDING 0.753533 0.900434 0.820460 N/A

评估详情

  • 数据集:ner_disorderfinding_de_goldset 的黄金标准集
  • 数据集来源:goldset
  • 评估日期:2025-11-03 12:25:56
  • 语言:de
  • 实体:DISORDER_FINDING

本评估部分自动生成并更新。

引用

如果您使用此模型,请引用:

@model{demo_de_ner_model,
  title = {TinyBERT for Demo NER (German)},
  author = {DH Healthcare GmbH},
  year = {2025},
  publisher = {Hugging Face},
  url = {https://huggingface.co/DedalusHealthCare/tinybert-ner-demo-de}
}

许可证

该模型为 DH Healthcare GmbH 专有。保留所有权利。

联系方式

如有问题或需要支持,请联系 DH Healthcare GmbH。

DedalusHealthCare/tinybert-ner-demo-de

作者 DedalusHealthCare

token-classification transformers
↓ 0 ♥ 0

创建时间: 2025-10-08 14:04:17+00:00

更新时间: 2026-01-20 17:26:44+00:00

在 Hugging Face 上查看

文件 (19)

.gitattributes
1755067493/config.json
1755067493/model.py
1755067493/special_tokens_map.json
1755067493/tokenizer.json
1755067493/tokenizer_config.json
1755067493/training_args.bin
1755067493/vocab.txt
README.md
config.json
config_cpu.pbtxt
config_gpu.pbtxt
model.onnx ONNX
model.safetensors
model_info.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.txt