返回模型
说明文档
<!-- 此模型卡片已根据 Trainer 可获取的信息自动生成。您可能需要校对并完善它,然后删除此注释。 -->
run01-bert-l-uwwm-squadv1.1-sl256-ds128-e2-tbs16
此模型是在 squad 数据集上对 bert-large-uncased-whole-word-masking 进行微调的版本。此处包含 ONNX 和 OpenVINO IR 格式。
模型描述
更多信息待补充
预期用途与限制
更多信息待补充
训练与评估数据
更多信息待补充
训练过程
NEPOCH=2
TBS=16
EBS=64
SL=256
DS=128
cmd=\"
python run_qa.py \
--model_name_or_path ${BASEM} \
--dataset_name squad \
--do_eval \
--do_train \
--evaluation_strategy steps \
--eval_steps 500 \
--learning_rate 3e-5 \
--fp16 \
--num_train_epochs $NEPOCH \
--per_device_eval_batch_size $EBS \
--per_device_train_batch_size $TBS \
--max_seq_length $SL \
--doc_stride $DS \
--save_steps 1000 \
--logging_steps 1 \
--overwrite_output_dir \
--run_name $RUNID \
--output_dir $OUTDIR
\"
训练超参数
训练过程中使用了以下超参数:
- learning_rate: 3e-05
- train_batch_size: 16
- eval_batch_size: 64
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- num_epochs: 2.0
- mixed_precision_training: Native AMP
训练结果
最佳检查点在第 11500 步,但未被保存。这是最终检查点(12K+)。
eval_exact_match = 86.9347
eval_f1 = 93.1359
eval_samples = 12097
框架版本
- Transformers 4.18.0
- Pytorch 1.11.0+cu113
- Datasets 2.1.0
- Tokenizers 0.12.1
vuiseng9/bert-l-squadv1.1-sl256
作者 vuiseng9
question-answering
transformers
↓ 0
♥ 0
创建时间: 2022-05-06 20:38:14+00:00
更新时间: 2022-05-07 03:41:17+00:00
在 Hugging Face 上查看文件 (18)
.gitattributes
README.md
all_results.json
config.json
eval_predictions.json
eval_results.json
ir/squad-BertForQuestionAnswering.dense.fp32.bin
ir/squad-BertForQuestionAnswering.dense.fp32.mapping
ir/squad-BertForQuestionAnswering.dense.fp32.onnx
ONNX
ir/squad-BertForQuestionAnswering.dense.fp32.xml
pytorch_model.bin
special_tokens_map.json
tokenizer.json
tokenizer_config.json
train_results.json
trainer_state.json
training_args.bin
vocab.txt