说明文档

bert-large-NER

模型描述

bert-large-NER 是一个经过微调的 BERT 模型，可直接用于命名实体识别任务，并在 NER 任务上达到了最先进的性能。该模型已被训练识别四种类型的实体：地点 (LOC)、组织 (ORG)、人物 (PER) 和其他 (MISC)。

具体而言，该模型是基于 bert-large-cased 模型，在标准 CoNLL-2003 命名实体识别数据集的英文版本上进行了微调。

如果您想使用在相同数据集上微调的较小 BERT 模型，也可以使用 bert-base-NER 版本。

预期用途与限制

如何使用

您可以使用 Transformers 的 pipeline 进行 NER 推理。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("dslim/bert-large-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/bert-large-NER")

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"

ner_results = nlp(example)
print(ner_results)

限制与偏见

该模型的局限性在于其训练数据集是来自特定时间段的带有实体标注的新闻文章。这可能无法很好地泛化到不同领域的所有使用场景。此外，该模型偶尔会将子词标记为实体，可能需要对结果进行后处理来处理这些情况。

训练数据

该模型在标准 CoNLL-2003 命名实体识别数据集的英文版本上进行了微调。

训练数据集区分了实体的开头和延续，这样如果有两个相同类型的实体相邻，模型可以输出第二个实体从哪里开始。与数据集一致，每个标记将被分类为以下类别之一：

缩写	描述
O	命名实体之外
B-MIS	紧接另一个杂项实体后的杂项实体开头
I-MIS	杂项实体
B-PER	紧接另一个人名后的人名开头
I-PER	人名
B-ORG	紧接另一个组织后的组织开头
I-ORG	组织
B-LOC	紧接另一个地点后的地点开头
I-LOC	地点

CoNLL-2003 英文数据集统计

该数据集源自路透社语料库，由路透社新闻故事组成。您可以在 CoNLL-2003 论文中了解更多关于该数据集如何创建的信息。

每种实体类型的训练样本数量

数据集	LOC	MISC	ORG	PER
训练集	7140	3438	6321	6600
验证集	1837	922	1341	1842
测试集	1668	702	1661	1617

每个数据集的文章/句子/标记数量

数据集	文章	句子	标记
训练集	946	14,987	203,621
验证集	216	3,466	51,362
测试集	231	3,684	46,435

训练过程

该模型在单个 NVIDIA V100 GPU 上训练，使用了原始 BERT 论文中推荐的超参数，该论文在 CoNLL-2003 NER 任务上训练和评估了模型。

评估结果

指标	验证集	测试集
F1	95.7	91.7
精确率	95.3	91.2
召回率	96.1	92.3

测试集指标略低于 Google 官方 BERT 结果，后者编码了文档上下文并尝试了 CRF。更多关于复现原始结果的信息请见这里。

BibTeX 条目和引用信息

@article{DBLP:journals/corr/abs-1810-04805,
  author    = {Jacob Devlin and
               Ming{-}Wei Chang and
               Kenton Lee and
               Kristina Toutanova},
  title     = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
               Understanding},
  journal   = {CoRR},
  volume    = {abs/1810.04805},
  year      = {2018},
  url       = {http://arxiv.org/abs/1810.04805},
  archivePrefix = {arXiv},
  eprint    = {1810.04805},
  timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
    title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.  and
      De Meulder, Fien",
    booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
    year = "2003",
    url = "https://www.aclweb.org/anthology/W03-0419",
    pages = "142--147",
}

mdizak/bert-large-NER-rust

作者 mdizak

token-classification transformers

↓ 0 ♥ 0

创建时间: 2024-03-31 09:53:22+00:00

更新时间: 2024-03-31 10:04:58+00:00

在 Hugging Face 上查看

文件 (21)

.gitattributes

README.md

bert-large-NER-rust/.gitattributes

bert-large-NER-rust/README.md

config.json

flax_model.msgpack

model.npz

model.safetensors

onnx/added_tokens.json

onnx/config.json

onnx/model.onnx ONNX

onnx/special_tokens_map.json

onnx/tokenizer.json

onnx/tokenizer_config.json

onnx/vocab.txt

pytorch_model.bin

rust_model.ot

special_tokens_map.json

tf_model.h5

tokenizer_config.json

vocab.txt