返回模型

说明文档

TinyBERT 命名实体识别演示模型（德语）

模型描述

该模型是一个经过微调的 TinyBERT 模型，用于德语医学文本中 DISORDER_FINDING 实体的命名实体识别（NER）。

它是基于 DedalusHealthCare/tinybert-mlm-de 掩码语言模型，使用 DedalusHealthCare/ner_demo_de 数据集进行微调的。

基础模型：DedalusHealthCare/tinybert-mlm-de

训练数据集：DedalusHealthCare/ner_demo_de

任务：标记分类（命名实体识别）

语言：德语（de）

实体类型：DISORDER_FINDING

模型格式：PYTORCH+ONNX

请在 NER 管道中使用 max 作为聚合策略（参见下方示例）。

训练详情

训练轮数：1
学习率：N/A
训练批次大小：32
评估批次大小：32
最大序列长度：256
预热步数：N/A
FP16：False
梯度累积步数：2
评估累积步数：2
保存步数：15000
评估步数：10000
评估策略：steps
随机种子：33
标记全部词元：True
平衡训练：False
分块模式：sliding_window
步幅：16
最大训练样本数：None
最大评估样本数：10000
早停耐心值：0
早停阈值：0.0

用例配置

用例名称：demo
语言：德语（de）
目标实体：DISORDER_FINDING
文本处理最大长度：N/A
实体标注方案：N/A

使用方法

使用 Transformers 管道

from transformers import pipeline

# 加载模型
ner_pipeline = pipeline(
    \"ner\",
    model=\"DedalusHealthCare/tinybert-ner-demo-de\",
    tokenizer=\"DedalusHealthCare/tinybert-ner-demo-de\",
    aggregation_strategy=\"max\"
)

# 示例文本
text = \"Der Patient hat Diabetes und Bluthochdruck.\"

# 获取预测结果
entities = ner_pipeline(text)
print(entities)

使用 AutoModel 和 AutoTokenizer

from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch

# 加载模型和分词器
model_name = \"DedalusHealthCare/tinybert-ner-demo-de\"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

# 分词
text = \"Der Patient hat Diabetes und Bluthochdruck.\"
tokens = tokenizer(text, return_tensors=\"pt\", truncation=True, padding=True)

# 获取预测结果
with torch.no_grad():
    outputs = model(**tokens)
    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)

# 获取标签
predicted_token_class_ids = predictions.argmax(-1)
labels = [model.config.id2label[id.item()] for id in predicted_token_class_ids[0]]

使用 ONNX Runtime（优化推理）

from optimum.onnxruntime import ORTModelForTokenClassification
from transformers import AutoTokenizer, pipeline
import torch

# 加载 ONNX 模型以实现更快的推理
model_name = \"DedalusHealthCare/tinybert-ner-demo-de\"
onnx_model = ORTModelForTokenClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 使用 ONNX 模型创建管道（推荐）
ner_pipeline = pipeline(
    \"ner\",
    model=onnx_model,
    tokenizer=tokenizer,
    aggregation_strategy=\"max\"
)

# 示例文本
text = \"Der Patient hat Diabetes und Bluthochdruck.\"
entities = ner_pipeline(text)
print(entities)

# 直接使用模型
inputs = tokenizer(text, return_tensors=\"pt\", truncation=True, padding=True)
with torch.no_grad():
    outputs = onnx_model(**inputs)
    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)

predicted_token_class_ids = predictions.argmax(-1)
token_labels = [onnx_model.config.id2label[id.item()] for id in predicted_token_class_ids[0]]

性能比较

PyTorch：标准格式，适用于训练和研究
ONNX：针对推理进行优化，通常比 PyTorch 快 2-4 倍
推荐：生产环境推理使用 ONNX，研究使用 PyTorch

模型架构

该模型基于 TinyBERT 架构，带有用于命名实体识别的标记分类头。

预期用途

该模型适用于：

德语医学文本中的命名实体识别
识别 DISORDER_FINDING 实体
医学文本处理和分析
医学自然语言处理的研究与开发

局限性

专门针对德语医学文本进行训练
在不同医学领域的文本上性能可能有所不同
可能无法很好地泛化到非医学文本
需要在新数据集上进行仔细评估

伦理考量

该模型基于医学数据训练，应负责任地使用
输出结果应由医学专业人员验证
必须遵守患者隐私和数据保护法规
模型可能存在训练数据中的偏差

模型性能

该模型已在 ner_disorderfinding_de_goldset 的黄金标准集上使用 IO 评估（sklearn，标记级别，宽松标准）进行了评估，结果如下：

整体性能

指标	分数
精确率（宏平均）	0.423825
召回率（宏平均）	0.467183
F1分数（宏平均）	0.435170
精确率（加权）	0.599471
召回率（加权）	0.697989
F1分数（加权）	0.640426

推理性能：评估数据集耗时 5.53 秒

实体级别性能（IO 评估）

实体类型	精确率	召回率	F1分数	支持数
DISORDER_FINDING	0.753533	0.900434	0.820460	N/A

评估详情

数据集：ner_disorderfinding_de_goldset 的黄金标准集
数据集来源：goldset
评估日期：2025-11-03 12:25:56
语言：de
实体：DISORDER_FINDING

本评估部分自动生成并更新。

引用

如果您使用此模型，请引用：

@model{demo_de_ner_model,
  title = {TinyBERT for Demo NER (German)},
  author = {DH Healthcare GmbH},
  year = {2025},
  publisher = {Hugging Face},
  url = {https://huggingface.co/DedalusHealthCare/tinybert-ner-demo-de}
}

许可证

联系方式

如有问题或需要支持，请联系 DH Healthcare GmbH。

DedalusHealthCare/tinybert-ner-demo-de

作者 DedalusHealthCare

token-classification transformers

↓ 0 ♥ 0

创建时间: 2025-10-08 14:04:17+00:00

更新时间: 2026-01-20 17:26:44+00:00

在 Hugging Face 上查看

文件 (19)

.gitattributes

1755067493/config.json

1755067493/model.py

1755067493/special_tokens_map.json

1755067493/tokenizer.json

1755067493/tokenizer_config.json

1755067493/training_args.bin

1755067493/vocab.txt

README.md

config.json

config_cpu.pbtxt

config_gpu.pbtxt

model.onnx ONNX

model.safetensors

model_info.json

special_tokens_map.json

tokenizer.json

tokenizer_config.json

vocab.txt