返回模型
说明文档
bert-base-multilingual-cased-ner-hrl
模型描述
bert-base-multilingual-cased-ner-hrl 是一个用于 10 种高资源语言(阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文)的命名实体识别模型,基于微调的 mBERT base 模型。它经过训练可以识别三种类型的实体:位置(LOC)、组织(ORG)和人名(PER)。 具体来说,这个模型是一个 bert-base-multilingual-cased 模型,在 10 种高资源语言的聚合数据上进行了微调。
预期用途与局限性
如何使用
您可以使用 Transformers pipeline 来进行 NER 任务。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)
局限性与偏见
该模型受限于其训练数据集,即特定时间段内的实体标注新闻文章。这可能无法很好地泛化到不同领域的各种用例。
训练数据
10 种语言的训练数据来源如下:
| 语言 | 数据集 |
|---|---|
| 阿拉伯语 | ANERcorp |
| 德语 | conll 2003 |
| 英语 | conll 2003 |
| 西班牙语 | conll 2002 |
| 法语 | Europeana Newspapers |
| 意大利语 | Italian I-CAB |
| 拉脱维亚语 | Latvian NER |
| 荷兰语 | conll 2002 |
| 葡萄牙语 | Paramopama + Second Harem |
| 中文 | MSRA |
训练数据集区分实体的开头和延续部分,这样如果存在连续相同类型的实体,模型可以输出第二个实体的起始位置。与数据集一样,每个token将被分类为以下类别之一:
| 缩写 | 描述 |
|---|---|
| O | 不在命名实体中 |
| B-PER | 人名开头,前一个人名之后 |
| I-PER | 人名 |
| B-ORG | 组织开头,前一个组织之后 |
| I-ORG | 组织 |
| B-LOC | 位置开头,前一个位置之后 |
| I-LOC | 位置 |
训练过程
该模型在 NVIDIA V100 GPU 上使用 HuggingFace 代码中推荐的超参数进行训练。
Davlan/bert-base-multilingual-cased-ner-hrl
作者 Davlan
token-classification
transformers
↓ 215K
♥ 80
创建时间: 2022-03-02 23:29:04+00:00
更新时间: 2024-11-11 12:32:14+00:00
在 Hugging Face 上查看文件 (17)
.gitattributes
README.md
config.json
model.safetensors
onnx/added_tokens.json
onnx/config.json
onnx/model.onnx
ONNX
onnx/special_tokens_map.json
onnx/tokenizer.json
onnx/tokenizer_config.json
onnx/vocab.txt
pytorch_model.bin
special_tokens_map.json
tf_model.h5
tokenizer_config.json
training_args.bin
vocab.txt