返回模型
说明文档
TinyBERT 命名实体识别演示模型(德语)
模型描述
该模型是一个经过微调的 TinyBERT 模型,用于德语医学文本中 DISORDER_FINDING 实体的命名实体识别(NER)。
它是基于 DedalusHealthCare/tinybert-mlm-de 掩码语言模型,使用 DedalusHealthCare/ner_demo_de 数据集进行微调的。
基础模型:DedalusHealthCare/tinybert-mlm-de
训练数据集:DedalusHealthCare/ner_demo_de
任务:标记分类(命名实体识别)
语言:德语(de)
实体类型:DISORDER_FINDING
模型格式:PYTORCH+ONNX
请在 NER 管道中使用 max 作为聚合策略(参见下方示例)。
训练详情
- 训练轮数:1
- 学习率:N/A
- 训练批次大小:32
- 评估批次大小:32
- 最大序列长度:256
- 预热步数:N/A
- FP16:False
- 梯度累积步数:2
- 评估累积步数:2
- 保存步数:15000
- 评估步数:10000
- 评估策略:steps
- 随机种子:33
- 标记全部词元:True
- 平衡训练:False
- 分块模式:sliding_window
- 步幅:16
- 最大训练样本数:None
- 最大评估样本数:10000
- 早停耐心值:0
- 早停阈值:0.0
用例配置
- 用例名称:demo
- 语言:德语(de)
- 目标实体:DISORDER_FINDING
- 文本处理最大长度:N/A
- 实体标注方案:N/A
使用方法
使用 Transformers 管道
from transformers import pipeline
# 加载模型
ner_pipeline = pipeline(
\"ner\",
model=\"DedalusHealthCare/tinybert-ner-demo-de\",
tokenizer=\"DedalusHealthCare/tinybert-ner-demo-de\",
aggregation_strategy=\"max\"
)
# 示例文本
text = \"Der Patient hat Diabetes und Bluthochdruck.\"
# 获取预测结果
entities = ner_pipeline(text)
print(entities)
使用 AutoModel 和 AutoTokenizer
from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch
# 加载模型和分词器
model_name = \"DedalusHealthCare/tinybert-ner-demo-de\"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
# 分词
text = \"Der Patient hat Diabetes und Bluthochdruck.\"
tokens = tokenizer(text, return_tensors=\"pt\", truncation=True, padding=True)
# 获取预测结果
with torch.no_grad():
outputs = model(**tokens)
predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
# 获取标签
predicted_token_class_ids = predictions.argmax(-1)
labels = [model.config.id2label[id.item()] for id in predicted_token_class_ids[0]]
使用 ONNX Runtime(优化推理)
from optimum.onnxruntime import ORTModelForTokenClassification
from transformers import AutoTokenizer, pipeline
import torch
# 加载 ONNX 模型以实现更快的推理
model_name = \"DedalusHealthCare/tinybert-ner-demo-de\"
onnx_model = ORTModelForTokenClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 使用 ONNX 模型创建管道(推荐)
ner_pipeline = pipeline(
\"ner\",
model=onnx_model,
tokenizer=tokenizer,
aggregation_strategy=\"max\"
)
# 示例文本
text = \"Der Patient hat Diabetes und Bluthochdruck.\"
entities = ner_pipeline(text)
print(entities)
# 直接使用模型
inputs = tokenizer(text, return_tensors=\"pt\", truncation=True, padding=True)
with torch.no_grad():
outputs = onnx_model(**inputs)
predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
predicted_token_class_ids = predictions.argmax(-1)
token_labels = [onnx_model.config.id2label[id.item()] for id in predicted_token_class_ids[0]]
性能比较
- PyTorch:标准格式,适用于训练和研究
- ONNX:针对推理进行优化,通常比 PyTorch 快 2-4 倍
- 推荐:生产环境推理使用 ONNX,研究使用 PyTorch
模型架构
该模型基于 TinyBERT 架构,带有用于命名实体识别的标记分类头。
预期用途
该模型适用于:
- 德语医学文本中的命名实体识别
- 识别 DISORDER_FINDING 实体
- 医学文本处理和分析
- 医学自然语言处理的研究与开发
局限性
- 专门针对德语医学文本进行训练
- 在不同医学领域的文本上性能可能有所不同
- 可能无法很好地泛化到非医学文本
- 需要在新数据集上进行仔细评估
伦理考量
- 该模型基于医学数据训练,应负责任地使用
- 输出结果应由医学专业人员验证
- 必须遵守患者隐私和数据保护法规
- 模型可能存在训练数据中的偏差
模型性能
该模型已在 ner_disorderfinding_de_goldset 的黄金标准集上使用 IO 评估(sklearn,标记级别,宽松标准)进行了评估,结果如下:
整体性能
| 指标 | 分数 |
|---|---|
| 精确率(宏平均) | 0.423825 |
| 召回率(宏平均) | 0.467183 |
| F1分数(宏平均) | 0.435170 |
| 精确率(加权) | 0.599471 |
| 召回率(加权) | 0.697989 |
| F1分数(加权) | 0.640426 |
推理性能:评估数据集耗时 5.53 秒
实体级别性能(IO 评估)
| 实体类型 | 精确率 | 召回率 | F1分数 | 支持数 |
|---|---|---|---|---|
| DISORDER_FINDING | 0.753533 | 0.900434 | 0.820460 | N/A |
评估详情
- 数据集:ner_disorderfinding_de_goldset 的黄金标准集
- 数据集来源:goldset
- 评估日期:2025-11-03 12:25:56
- 语言:de
- 实体:DISORDER_FINDING
本评估部分自动生成并更新。
引用
如果您使用此模型,请引用:
@model{demo_de_ner_model,
title = {TinyBERT for Demo NER (German)},
author = {DH Healthcare GmbH},
year = {2025},
publisher = {Hugging Face},
url = {https://huggingface.co/DedalusHealthCare/tinybert-ner-demo-de}
}
许可证
该模型为 DH Healthcare GmbH 专有。保留所有权利。
联系方式
如有问题或需要支持,请联系 DH Healthcare GmbH。
DedalusHealthCare/tinybert-ner-demo-de
作者 DedalusHealthCare
token-classification
transformers
↓ 0
♥ 0
创建时间: 2025-10-08 14:04:17+00:00
更新时间: 2026-01-20 17:26:44+00:00
在 Hugging Face 上查看文件 (19)
.gitattributes
1755067493/config.json
1755067493/model.py
1755067493/special_tokens_map.json
1755067493/tokenizer.json
1755067493/tokenizer_config.json
1755067493/training_args.bin
1755067493/vocab.txt
README.md
config.json
config_cpu.pbtxt
config_gpu.pbtxt
model.onnx
ONNX
model.safetensors
model_info.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.txt