说明文档

bert-base-multilingual-cased-ner-hrl

模型描述

bert-base-multilingual-cased-ner-hrl 是一个用于 10 种高资源语言（阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文）的命名实体识别模型，基于微调的 mBERT base 模型。它经过训练可以识别三种类型的实体：位置（LOC）、组织（ORG）和人名（PER）。具体来说，这个模型是一个 bert-base-multilingual-cased 模型，在 10 种高资源语言的聚合数据上进行了微调。

预期用途与局限性

如何使用

您可以使用 Transformers pipeline 来进行 NER 任务。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)

局限性与偏见

该模型受限于其训练数据集，即特定时间段内的实体标注新闻文章。这可能无法很好地泛化到不同领域的各种用例。

训练数据

10 种语言的训练数据来源如下：

语言	数据集
阿拉伯语	ANERcorp
德语	conll 2003
英语	conll 2003
西班牙语	conll 2002
法语	Europeana Newspapers
意大利语	Italian I-CAB
拉脱维亚语	Latvian NER
荷兰语	conll 2002
葡萄牙语	Paramopama + Second Harem
中文	MSRA

训练数据集区分实体的开头和延续部分，这样如果存在连续相同类型的实体，模型可以输出第二个实体的起始位置。与数据集一样，每个token将被分类为以下类别之一：

缩写	描述
O	不在命名实体中
B-PER	人名开头，前一个人名之后
I-PER	人名
B-ORG	组织开头，前一个组织之后
I-ORG	组织
B-LOC	位置开头，前一个位置之后
I-LOC	位置

训练过程

该模型在 NVIDIA V100 GPU 上使用 HuggingFace 代码中推荐的超参数进行训练。

Davlan/bert-base-multilingual-cased-ner-hrl

作者 Davlan

token-classification transformers

↓ 215K ♥ 80

创建时间: 2022-03-02 23:29:04+00:00

更新时间: 2024-11-11 12:32:14+00:00

在 Hugging Face 上查看

文件 (17)

.gitattributes

README.md

config.json

model.safetensors

onnx/added_tokens.json

onnx/config.json

onnx/model.onnx ONNX

onnx/special_tokens_map.json

onnx/tokenizer.json

onnx/tokenizer_config.json

onnx/vocab.txt

pytorch_model.bin

special_tokens_map.json

tf_model.h5

tokenizer_config.json

training_args.bin

vocab.txt