返回模型

说明文档

T5 小型模型卡

模型图片

模型详情

模型描述

Text-To-Text Transfer Transformer（T5）的开发者写道：

通过T5，我们建议将所有NLP任务重新框架为统一的文本到文本格式，输入和输出始终是文本字符串，这与只能输出类别标签或输入片段的BERT风格模型不同。我们的文本到文本框架允许我们在任何NLP任务上使用相同的模型、损失函数和超参数。

T5-Small是拥有6000万参数的检查点。

开发者： Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu。请参阅相关论文和GitHub仓库
模型类型： 语言模型
语言（NLP）： 英语、法语、罗马尼亚语、德语
许可证： Apache 2.0
相关模型： 所有T5检查点
更多信息资源：

用途

直接使用和下游使用

开发者在博客文章中写道，该模型：

我们的文本到文本框架允许我们在任何NLP任务上使用相同的模型、损失函数和超参数，包括机器翻译、文档摘要、问答和分类任务（例如情感分析）。我们甚至可以通过训练T5预测数字的字符串表示而不是数字本身来将其应用于回归任务。

请参阅博客文章和研究论文了解更多详情。

超范围使用

需要更多信息。

偏见、风险与局限性

需要更多信息。

建议

需要更多信息。

训练细节

训练数据

该模型基于Colossal Clean Crawled Corpus (C4)进行预训练，该语料库是在与T5相同的研究论文中开发和发布的。

该模型基于无监督（1.）和监督任务（2.）的多任务混合进行预训练。因此，以下数据集用于（1.）和（2.）：

用于无监督去噪目标的数据集：

C4
Wiki-DPR

用于监督文本到文本语言建模目标的数据集

句子可接受性判断
- CoLA Warstadt et al., 2018
情感分析
- SST-2 Socher et al., 2013
释义/句子相似度
- MRPC Dolan and Brockett, 2005
- STS-B Ceret al., 2017
- QQP Iyer et al., 2017
自然语言推理
- MNLI Williams et al., 2017
- QNLI Rajpurkar et al.,2016
- RTE Dagan et al., 2005
- CB De Marneff et al., 2019
句子补全
- COPA Roemmele et al., 2011
词义消歧
- WIC Pilehvar and Camacho-Collados, 2018
问答
- MultiRC Khashabi et al., 2018
- ReCoRD Zhang et al., 2018
- BoolQ Clark et al., 2019

训练程序

在他们的摘要中，模型开发者写道：

在本文中，我们通过引入一个统一的框架来探索NLP中迁移学习技术的前景，该框架将每个语言问题转换为文本到文本格式。我们的系统研究比较了预训练目标、架构、未标记数据集、迁移方法以及其他因素在数十个语言理解任务上的表现。

引入的框架（T5框架）涉及一个训练程序，将论文中研究的方法结合在一起。请参阅研究论文了解更多详情。

评估

测试数据、因素与指标

开发者在24个任务上评估了该模型，请参阅研究论文了解完整详情。

结果

T5-small的完整结果请参阅研究论文，表14。

环境影响

碳排放可以使用Lacoste et al. (2019)中提出的机器学习影响计算器进行估算。

硬件类型： Google Cloud TPU Pods
使用时长： 需要更多信息
云服务提供商： GCP
计算区域： 需要更多信息
碳排放量： 需要更多信息

引用

BibTeX：

@article{2020t5,
  author  = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title   = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {Journal of Machine Learning Research},
  year    = {2020},
  volume  = {21},
  number  = {140},
  pages   = {1-67},
  url     = {http://jmlr.org/papers/v21/20-074.html}
}

APA：

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.

模型卡作者

本模型卡由Hugging Face团队编写。

如何开始使用模型

使用以下代码开始使用模型。

from transformers import T5Tokenizer, T5Model

tokenizer = T5Tokenizer.from_pretrained("t5-small")
model = T5Model.from_pretrained("t5-small")

input_ids = tokenizer(
    "Studies have been shown that owning a dog is good for you", return_tensors="pt"
).input_ids  # Batch size 1
decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1

# forward pass
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states = outputs.last_hidden_state

请参阅Hugging Face T5文档和模型开发者创建的Colab笔记本了解更多示例。 </details>

google-t5/t5-small

作者 google-t5

translation transformers

↓ 1.8M ♥ 533

创建时间: 2022-03-02 23:29:04+00:00

更新时间: 2023-06-30 02:31:26+00:00

在 Hugging Face 上查看

文件 (20)

.gitattributes

README.md

config.json

flax_model.msgpack

generation_config.json

model.safetensors

onnx/decoder_model.onnx ONNX

onnx/decoder_model_merged.onnx ONNX

onnx/decoder_model_merged_quantized.onnx ONNX

onnx/decoder_model_quantized.onnx ONNX

onnx/decoder_with_past_model.onnx ONNX

onnx/decoder_with_past_model_quantized.onnx ONNX

onnx/encoder_model.onnx ONNX

onnx/encoder_model_quantized.onnx ONNX

pytorch_model.bin

rust_model.ot

spiece.model

tf_model.h5

tokenizer.json

tokenizer_config.json

说明文档

T5 小型模型卡

目录

模型详情

模型描述

用途

直接使用和下游使用

超范围使用

偏见、风险与局限性

建议

训练细节

训练数据

训练程序

评估

测试数据、因素与指标

结果

环境影响

引用

模型卡作者

如何开始使用模型

google-t5/t5-small

文件 (20)