ONNX 模型库
返回模型

说明文档

bert-base-multilingual-cased-ner-hrl

模型描述

bert-base-multilingual-cased-ner-hrl 是一个用于 10 种高资源语言(阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文)的命名实体识别模型,基于微调的 mBERT base 模型。它经过训练可以识别三种类型的实体:位置(LOC)、组织(ORG)和人名(PER)。 具体来说,这个模型是一个 bert-base-multilingual-cased 模型,在 10 种高资源语言的聚合数据上进行了微调。

预期用途与局限性

如何使用

您可以使用 Transformers pipeline 来进行 NER 任务。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)

局限性与偏见

该模型受限于其训练数据集,即特定时间段内的实体标注新闻文章。这可能无法很好地泛化到不同领域的各种用例。

训练数据

10 种语言的训练数据来源如下:

语言 数据集
阿拉伯语 ANERcorp
德语 conll 2003
英语 conll 2003
西班牙语 conll 2002
法语 Europeana Newspapers
意大利语 Italian I-CAB
拉脱维亚语 Latvian NER
荷兰语 conll 2002
葡萄牙语 Paramopama + Second Harem
中文 MSRA

训练数据集区分实体的开头和延续部分,这样如果存在连续相同类型的实体,模型可以输出第二个实体的起始位置。与数据集一样,每个token将被分类为以下类别之一:

缩写 描述
O 不在命名实体中
B-PER 人名开头,前一个人名之后
I-PER 人名
B-ORG 组织开头,前一个组织之后
I-ORG 组织
B-LOC 位置开头,前一个位置之后
I-LOC 位置

训练过程

该模型在 NVIDIA V100 GPU 上使用 HuggingFace 代码中推荐的超参数进行训练。

Davlan/bert-base-multilingual-cased-ner-hrl

作者 Davlan

token-classification transformers
↓ 215K ♥ 80

创建时间: 2022-03-02 23:29:04+00:00

更新时间: 2024-11-11 12:32:14+00:00

在 Hugging Face 上查看

文件 (17)

.gitattributes
README.md
config.json
model.safetensors
onnx/added_tokens.json
onnx/config.json
onnx/model.onnx ONNX
onnx/special_tokens_map.json
onnx/tokenizer.json
onnx/tokenizer_config.json
onnx/vocab.txt
pytorch_model.bin
special_tokens_map.json
tf_model.h5
tokenizer_config.json
training_args.bin
vocab.txt