说明文档
DistilBERT base uncased finetuned SST-2
目录
模型详情
模型描述: 该模型是 DistilBERT-base-uncased 的微调检查点,在 SST-2 数据集上进行了微调。 该模型在开发集上达到了 91.3% 的准确率(作为对比,Bert bert-base-uncased 版本的准确率为 92.7%)。
- 开发者: Hugging Face
- 模型类型: 文本分类
- 语言: 英语
- 许可证: Apache-2.0
- 父模型: 有关 DistilBERT 的更多详情,我们鼓励用户查看 此模型卡。
- 更多信息资源:
模型快速上手
单标签分类示例:
import torch
from transformers import DistilBertTokenizer, DistilBertForSequenceClassification
tokenizer = DistilBertTokenizer.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
model = DistilBertForSequenceClassification.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
predicted_class_id = logits.argmax().item()
model.config.id2label[predicted_class_id]
用途
直接使用
该模型可用于主题分类。您可以将原始模型用于掩码语言建模或下一句预测,但它主要用于在下游任务上进行微调。请查看模型中心,查找您感兴趣的任务上的微调版本。
滥用和超出范围的使用
该模型不应被用于故意为人们创造敌对或排斥的环境。此外,该模型未经训练以成为人或事件的真实或准确表现,因此使用该模型生成此类内容超出了模型能力范围。
风险、局限性与偏见
基于一些实验,我们观察到该模型可能产生针对弱势群体的有偏预测。
例如,对于类似 This film was filmed in COUNTRY 的句子,这个二分类模型会根据国家的不同对正向标签给出截然不同的概率(如果是法国则为 0.89,但如果是阿富汗则为 0.08),而输入中没有任何内容表明存在如此强烈的语义转换。在这个 colab 中,Aurélien Géron 制作了一张有趣的地图,绘制了每个国家的这些概率。
<img src="https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english/resolve/main/map.jpeg" alt="各国正向概率地图。" width="500"/>
我们强烈建议用户在各自的使用案例中彻底探究这些方面,以评估该模型的风险。我们建议从以下偏见评估数据集开始:WinoBias、WinoGender、Stereoset。
训练
训练数据
作者使用以下斯坦福情感树库(sst2)语料库训练模型。
训练过程
微调超参数
- learning_rate = 1e-5
- batch_size = 32
- warmup = 600
- max_seq_length = 128
- num_train_epochs = 3.0
distilbert/distilbert-base-uncased-finetuned-sst-2-english
作者 distilbert
创建时间: 2022-03-02 23:29:04+00:00
更新时间: 2023-12-19 16:29:37+00:00
在 Hugging Face 上查看