说明文档

德语 BERT

bert_image

概述

语言模型： bert-base-cased
语言： 德语
训练数据： Wiki、OpenLegalData、新闻（约 12GB）
评估数据： Conll03（NER）、GermEval14（NER）、GermEval18（分类）、GNAD（分类）
基础设施：1x TPU v2
发布时间：2019年6月14日

2020年4月3日更新：我们更新了 deepset s3 上的词汇表文件，以符合标点符号分词的默认设置。有关详情请参阅相关的 FARM 问题。如果您想使用旧词汇表，我们还上传了一个 "deepset/bert-base-german-cased-oldvocab" 模型。

详情

我们使用 Google 的 Tensorflow 代码在单个云 TPU v2 上进行训练，采用标准设置。
我们训练了 810,000 步，批大小为 1024，序列长度为 128，以及 30,000 步，序列长度为 512。训练耗时约 9 天。
训练数据我们使用了最新的德语 Wikipedia dump（6GB 原始文本文件）、OpenLegalData dump（2.4 GB）和新闻文章（3.6 GB）。
我们使用定制的脚本清理了数据dump，并使用 spacy v2.1 进行句子分割。为了创建 tensorflow 记录，我们使用了推荐的 sentencepiece 库来创建词片词汇表，并使用 tensorflow 脚本将文本转换为 BERT 可用的数据。

有关更多详情，请访问 https://deepset.ai/german-bert

超参数

batch_size = 1024
n_steps = 810_000
max_seq_len = 128（后续为 512）
learning_rate = 1e-4
lr_schedule = LinearWarmup
num_warmup_steps = 10_000

性能

在训练过程中，我们监控了损失值，并在以下德语数据集上评估了不同的模型检查点：

germEval18Fine：多类情感分类的宏 F1 分数
germEval18coarse：二元情感分类的宏 F1 分数
germEval14：NER 的序列 F1 分数（文件名 deuutf.*）
CONLL03：NER 的序列 F1 分数
10kGNAD：文档分类的准确率

即使没有进行彻底的超参数调优，我们观察到学习过程相当稳定，特别是对于我们的德语模型。使用不同种子的多次重启产生了非常相似的结果。

我们进一步评估了预训练 9 天期间的不同数据点，并惊讶地发现模型能够如此快速地收敛到最佳可达性能。我们在 7 个不同的模型检查点上运行了所有 5 个下游任务——这些检查点取自 0 到 840,000 训练步（见下图 x 轴）。大多数检查点取自我们预期性能变化最大的训练早期。有趣的是，即使是一个随机初始化的 BERT，仅在带标签的下游数据集上进行训练也能达到良好的性能（蓝线，GermEval 2018 粗粒度任务，795 kB 训练集大小）。

作者

Branden Chan：branden.chan [at] deepset.ai
Timo Möller：timo.moeller [at] deepset.ai
Malte Pietsch：malte.pietsch [at] deepset.ai
Tanay Soni：tanay.soni [at] deepset.ai

关于我们

deepset logo

我们通过开源将 NLP 带给行业！
我们的重点：行业特定语言模型和大规模问答系统。

我们的部分工作：

联系我们： Twitter | LinkedIn | Website

google-bert/bert-base-german-cased

作者 google-bert

fill-mask transformers

↓ 480.5K ♥ 82

创建时间: 2022-03-02 23:29:04+00:00

更新时间: 2024-02-19 11:03:41+00:00

在 Hugging Face 上查看

文件 (18)

.gitattributes

README.md

config.json

flax_model.msgpack

model.safetensors

onnx/added_tokens.json

onnx/config.json

onnx/generation_config.json

onnx/model.onnx ONNX

onnx/special_tokens_map.json

onnx/tokenizer.json

onnx/tokenizer_config.json

onnx/vocab.txt

pytorch_model.bin

tf_model.h5

tokenizer.json

tokenizer_config.json

vocab.txt