返回模型
说明文档
haykgrigorian/TimeCapsuleLLM-v2-London-1800-1875: Llama架构 1.2B 模型
模型概述
v2 模型,使用基于Llama的因果语言模型在112GB的1800-1875年伦敦文本上从头训练而成。
| 详情 | 数值 |
|---|---|
| 模型架构 | LlamaForCausalLM (仅解码器Transformer) |
| 参数量 | ~12.2亿 |
| 训练类型 | 从头训练 (随机初始化) |
| 分词器 | 自定义BPE,词表大小 32,000 |
| 序列长度 | 2048 个token |
| 注意力类型 | 分组查询注意力 (GQA) |
配置详情
该模型是基于Llama的自定义大小和配置:
| 参数 | 数值 |
|---|---|
| 层数 | 22 |
| 隐藏层大小 | 2048 |
| 中间层大小 ($\text{d}_{\text{ff}}$) | 5504 |
| 注意力头 | 16 (查询) / 8 (键/值) |
| 激活函数 | SiLU (silu) |
| 归一化 | RMS Norm (rms_norm_eps: 1e-06) |
| 位置编码 | 旋转位置编码 |
训练信息
该模型训练了182,000步,约0.5个epoch。
训练指标:
最终训练损失:3.3951
初始训练损失:10.7932
训练步数:182,000
训练轮数:0.4997
梯度范数稳定性:在后期阶段稳定在0.50到0.60之间。
训练时间:117小时51分钟
成本
该模型在RunPod的H100 SXM上训练
总计:$340.97
如何加载和运行模型
将所有文件本地安装到一个文件夹中并运行测试脚本。您需要在运行脚本中进行一些调整,例如更新配置/文件路径和测试提示
测试脚本
主项目仓库中提供了用于测试和评估该模型的运行文件:
- 测试脚本链接: GitHub上的run_v2.py
scasella91/timecapsulellm-pr1
作者 scasella91
text-generation
transformers
↓ 0
♥ 0
创建时间: 2026-01-12 19:20:08+00:00
更新时间: 2026-01-12 19:20:35+00:00
在 Hugging Face 上查看文件 (18)
.DS_Store
.gitattributes
LICENSE
README.md
config.json
generation_config.json
model.safetensors
onnx/config.json
onnx/generation_config.json
onnx/model.onnx
ONNX
onnx/model.onnx_data
onnx/special_tokens_map.json
onnx/tokenizer.json
onnx/tokenizer_config.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
training_args.bin