ONNX 模型库
返回模型

说明文档

bert-large-NER

如果您觉得我的开源模型对您有帮助,请考虑支持我构建有用的AI模型来帮助大家(并帮助我负担医学院学费/帮助我的父母经济上获得改善)。谢谢!

<a href="https://www.buymeacoffee.com/dslim" target="_blank"><img src="https://cdn.buymeacoffee.com/buttons/v2/arial-yellow.png" alt="Buy Me A Coffee" style="height: 60px !important;width: 217px !important;" ></a>

模型描述

bert-large-NER 是一个经过微调的BERT模型,可用于命名实体识别,并在NER任务上实现了最先进的性能。它经过训练可以识别四种类型的实体:位置(LOC)、组织(ORG)、人名(PER)和杂项(MISC)。

具体来说,这个模型是基于bert-large-cased模型,在英文版标准CoNLL-2003命名实体识别数据集上进行微调的。

如果您想使用在相同数据集上微调的较小BERT模型,bert-base-NER版本也可供使用。

预期用途与局限性

如何使用

您可以使用Transformers的pipeline进行NER任务。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("dslim/bert-large-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/bert-large-NER")

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"

ner_results = nlp(example)
print(ner_results)

局限性及偏见

此模型受限于其训练数据集——来自特定时期内的实体标注新闻文章。这可能无法很好地泛化到不同领域的各种用例。此外,该模型偶尔会将子词标记标注为实体,可能需要对结果进行后处理以处理这些情况。

训练数据

此模型在英文版标准CoNLL-2003命名实体识别数据集上进行微调。

训练数据集区分实体的开头和连续部分,这样如果存在相邻的同类实体,模型可以输出第二个实体的起始位置。与数据集中一样,每个标记将被分类为以下类别之一:

缩写 描述
O 不在命名实体内
B-MIS 另一个杂项实体后的杂项实体开头
I-MIS 杂项实体
B-PER 另一个人名后的人名开头
I-PER 人名
B-ORG 另一个组织后的组织开头
I-ORG 组织
B-LOC 另一个位置后的位置开头
I-LOC 位置

CoNLL-2003英文数据集统计

该数据集来源于路透社语料库,包含路透社新闻报道。您可以在CoNLL-2003论文中了解更多关于该数据集创建方式的信息。

每个实体类型的训练样本数

数据集 LOC MISC ORG PER
训练集 7140 3438 6321 6600
验证集 1837 922 1341 1842
测试集 1668 702 1661 1617

每个数据集的文章/句子/标记数

数据集 文章数 句子数 标记数
训练集 946 14,987 203,621
验证集 216 3,466 51,362
测试集 231 3,684 46,435

训练过程

此模型在单个NVIDIA V100 GPU上训练,使用了原始BERT论文中推荐的超参数,该论文在CoNLL-2003 NER任务上训练和评估了该模型。

评估结果

指标 验证集 测试集
f1 95.7 91.7
精确率 95.3 91.2
召回率 96.1 92.3

测试指标略低于官方Google BERT结果,后者使用了文档上下文编码和CRF实验。更多关于复现原始结果的信息请见这里

BibTeX引用信息

@article{DBLP:journals/corr/abs-1810-04805,
  author    = {Jacob Devlin and
               Ming{-}Wei Chang and
               Kenton Lee and
               Kristina Toutanova},
  title     = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
               Understanding},
  journal   = {CoRR},
  volume    = {abs/1810.04805},
  year      = {2018},
  url       = {http://arxiv.org/abs/1810.04805},
  archivePrefix = {arXiv},
  eprint    = {1810.04805},
  timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}
@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
    title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.  and
      De Meulder, Fien",
    booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
    year = "2003",
    url = "https://www.aclweb.org/anthology/W03-0419",
    pages = "142--147",
}

dslim/bert-large-NER

作者 dslim

token-classification transformers
↓ 174.7K ♥ 162

创建时间: 2022-03-02 23:29:05+00:00

更新时间: 2024-10-08 07:52:08+00:00

在 Hugging Face 上查看

文件 (17)

.gitattributes
README.md
config.json
flax_model.msgpack
model.safetensors
onnx/added_tokens.json
onnx/config.json
onnx/model.onnx ONNX
onnx/special_tokens_map.json
onnx/tokenizer.json
onnx/tokenizer_config.json
onnx/vocab.txt
pytorch_model.bin
special_tokens_map.json
tf_model.h5
tokenizer_config.json
vocab.txt