返回模型

说明文档

run01-bert-l-uwwm-squadv1.1-sl256-ds128-e2-tbs16

此模型是在 squad 数据集上对 bert-large-uncased-whole-word-masking 进行微调的版本。此处包含 ONNX 和 OpenVINO IR 格式。

模型描述

更多信息待补充

预期用途与限制

更多信息待补充

训练与评估数据

更多信息待补充

训练过程

NEPOCH=2
TBS=16
EBS=64
SL=256
DS=128

cmd=\"
python run_qa.py \
    --model_name_or_path ${BASEM} \
    --dataset_name squad \
    --do_eval \
    --do_train \
    --evaluation_strategy steps \
    --eval_steps 500 \
    --learning_rate 3e-5 \
    --fp16 \
    --num_train_epochs $NEPOCH \
    --per_device_eval_batch_size $EBS \
    --per_device_train_batch_size $TBS \
    --max_seq_length $SL \
    --doc_stride $DS \
    --save_steps 1000 \
    --logging_steps 1 \
    --overwrite_output_dir \
    --run_name $RUNID \
    --output_dir $OUTDIR
\"

训练超参数

训练过程中使用了以下超参数：

learning_rate: 3e-05
train_batch_size: 16
eval_batch_size: 64
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
num_epochs: 2.0
mixed_precision_training: Native AMP

训练结果

最佳检查点在第 11500 步，但未被保存。这是最终检查点（12K+）。

  eval_exact_match = 86.9347
  eval_f1          = 93.1359
  eval_samples     =   12097

框架版本

Transformers 4.18.0
Pytorch 1.11.0+cu113
Datasets 2.1.0
Tokenizers 0.12.1

vuiseng9/bert-l-squadv1.1-sl256

作者 vuiseng9

question-answering transformers

↓ 0 ♥ 0

创建时间: 2022-05-06 20:38:14+00:00

更新时间: 2022-05-07 03:41:17+00:00

在 Hugging Face 上查看

文件 (18)

.gitattributes

README.md

all_results.json

config.json

eval_predictions.json

eval_results.json

ir/squad-BertForQuestionAnswering.dense.fp32.bin

ir/squad-BertForQuestionAnswering.dense.fp32.mapping

ir/squad-BertForQuestionAnswering.dense.fp32.onnx ONNX

ir/squad-BertForQuestionAnswering.dense.fp32.xml

pytorch_model.bin

special_tokens_map.json

tokenizer.json

tokenizer_config.json

train_results.json

trainer_state.json

training_args.bin

vocab.txt