ONNX 模型库
返回模型

说明文档

🧠 训练配置

该模型使用以下模型架构进行训练:

⚙️ 模型架构

参数 描述
d_model 768 隐藏层维度大小
n_layers 12 Transformer 解码器层数
n_heads 12 每层注意力头数量
max_len 256 最大 token 序列长度
dropout 0.1 Dropout 比率
use_rope True 启用旋转位置编码
tie_weights True 输出层与嵌入层权重共享
总参数量 ≈ 1.36 亿 (与 GPT-Neo-125M 相当)

🧾 优化器与训练

参数 描述
optimizer AdamW Transformer 标准优化器
lr 3e-4 学习率
weight_decay 0.01 L2 正则化
betas (0.9, 0.95) 动量系数
grad_clip 1.0 梯度裁剪阈值
epochs 15 训练轮数
scheduler Cosine 学习率调度器
warmup_steps auto 自动计算预热步数
mixed_precision True FP16 混合精度训练
grad_accum_steps 1 梯度累积步数

📚 数据集

来源 描述
RecipeNLG CSV 一个经过清洗和结构化的食谱数据集,包含食材、标题和分步说明。
处理的 Token 数 ~200 万
预处理 小写化、食材数量标准化、Unicode 清理、去除重复项以及 BPE 分词(词表 ≈ 8k)。

🔢 分词器

  • 类型: Byte-Pair Encoding (BPE)
  • 路径: tokenizer/bpe.json
  • 词表大小: 与训练分词器一致
  • 特殊标记: <bos><eos> 在生成时显式处理

🧮 计算环境

设置
平台 Google Colab Pro+
GPU NVIDIA A100 (80 GB)
运行时 PyTorch 2.x
训练时间 ~18-22 小时
混合精度 已启用 (AMP)

🧮 硬件与可复现性

  • 随机种子: 42
  • 设备: 自动 (如有 GPU 则使用 GPU)
  • 混合精度: 已启用 (FP16)
  • 在 Colab Pro+ 上使用 T4/A100 GPU 训练了 3 个 epoch。

🧩 概述

Scraps-LLM 是一个 1.38 亿参数的纯解码器 Transformer,训练用于根据输入的食材列表生成完整的烹饪食谱。
该模型通过在 RecipeNLG 数据上进行**因果语言建模(下一个 token 预测)**来学习,生成包含标题和编号步骤的结构化、可读性强的食谱。
随后被导出为 ONNX 格式以实现轻量级 CPU 推理,并集成到 Hugging Face Space 演示中。


📈 评估 (验证集)

指标
验证集困惑度 ~7.1
BLEU-1 37.1
ROUGE-L 6.7

🧰 包含文件

文件 描述
export/scraps.onnx ONNX 优化推理图
tokenizer/bpe.json 用于编码/解码的 BPE 词表
best_model.pt PyTorch 检查点 (~1.38 亿参数)

donribbs/scraps-llm-model

作者 donribbs

text-generation pytorch
↓ 0 ♥ 0

创建时间: 2025-10-30 17:57:09+00:00

更新时间: 2025-11-11 14:25:52+00:00

在 Hugging Face 上查看

文件 (6)

.gitattributes
.gitignore
README.md
best_model.pt
export/scraps.onnx ONNX
tokenizer/bpe.json