ONNX 模型库
返回模型

说明文档

roberta-large-ner-english: 用于NER任务的roberta-large微调模型

简介

[roberta-large-ner-english]是一个英语NER模型,基于roberta-large在conll2003数据集上进行微调而成。 该模型已在电子邮件/聊天数据上进行了验证,在这类数据上表现优于其他模型。 特别值得注意的是,该模型在处理不以大写字母开头的实体时效果更好。

训练数据

训练数据分类如下:

缩写 描述
O 命名实体之外
MISC 杂项实体
PER 人名
ORG 组织
LOC 位置

为简化起见,原始conll2003中的B-或I-前缀已被移除。 我使用原始conll2003的训练集和测试集进行训练,使用"验证集"进行验证。数据集大小如下:

训练集 验证集
17494 3250

如何使用roberta-large-ner-english

加载roberta-large-ner-english及其子词分词器:
from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("Jean-Baptiste/roberta-large-ner-english")
model = AutoModelForTokenClassification.from_pretrained("Jean-Baptiste/roberta-large-ner-english")


##### 处理文本样本(来自维基百科)

from transformers import pipeline

nlp = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy="simple")
nlp("Apple was founded in 1976 by Steve Jobs, Steve Wozniak and Ronald Wayne to develop and sell Wozniak's Apple I personal computer")


[{'entity_group': 'ORG',
  'score': 0.99381506,
  'word': ' Apple',
  'start': 0,
  'end': 5},
 {'entity_group': 'PER',
  'score': 0.99970853,
  'word': ' Steve Jobs',
  'start': 29,
  'end': 39},
 {'entity_group': 'PER',
  'score': 0.99981767,
  'word': ' Steve Wozniak',
  'start': 41,
  'end': 54},
 {'entity_group': 'PER',
  'score': 0.99956465,
  'word': ' Ronald Wayne',
  'start': 59,
  'end': 71},
 {'entity_group': 'PER',
  'score': 0.9997918,
  'word': ' Wozniak',
  'start': 92,
  'end': 99},
 {'entity_group': 'MISC',
  'score': 0.99956393,
  'word': ' Apple I',
  'start': 102,
  'end': 109}]

模型性能

模型在conll2003验证集上的性能(基于token预测计算)

实体 精确率 召回率 F1
PER 0.9914 0.9927 0.9920
ORG 0.9627 0.9661 0.9644
LOC 0.9795 0.9862 0.9828
MISC 0.9292 0.9262 0.9277
Overall 0.9740 0.9766 0.9753

在私有数据集(电子邮件、聊天、非正式讨论)上的性能,基于word预测计算:

实体 精确率 召回率 F1
PER 0.8823 0.9116 0.8967
ORG 0.7694 0.7292 0.7487
LOC 0.8619 0.7768 0.8171

作为对比,在同一私有数据集上,Spacy (en_core_web_trf-3.2.0) 的性能:

实体 精确率 召回率 F1
PER 0.9146 0.8287 0.8695
ORG 0.7655 0.6437 0.6993
LOC 0.8727 0.6180 0.7236

对于感兴趣的人,这里有一篇简短的文章,介绍我如何使用该模型的结果来训练LSTM模型进行电子邮件签名检测: https://medium.com/@jean-baptiste.polle/lstm-model-for-email-signature-detection-8e990384fefa

Jean-Baptiste/roberta-large-ner-english

作者 Jean-Baptiste

token-classification transformers
↓ 75.4K ♥ 79

创建时间: 2022-03-02 23:29:04+00:00

更新时间: 2023-03-22 02:19:36+00:00

在 Hugging Face 上查看

文件 (12)

.gitattributes
README.md
config.json
merges.txt
model.onnx ONNX
model.safetensors
pytorch_model.bin
results.csv
special_tokens_map.json
tf_model.h5
tokenizer_config.json
vocab.json