ONNX 模型库
返回模型

说明文档

haykgrigorian/TimeCapsuleLLM-v2-London-1800-1875: Llama架构 1.2B 模型

模型概述

v2 模型,使用基于Llama的因果语言模型在112GB的1800-1875年伦敦文本上从头训练而成。

详情 数值
模型架构 LlamaForCausalLM (仅解码器Transformer)
参数量 ~12.2亿
训练类型 从头训练 (随机初始化)
分词器 自定义BPE,词表大小 32,000
序列长度 2048 个token
注意力类型 分组查询注意力 (GQA)

配置详情

该模型是基于Llama的自定义大小和配置:

参数 数值
层数 22
隐藏层大小 2048
中间层大小 ($\text{d}_{\text{ff}}$) 5504
注意力头 16 (查询) / 8 (键/值)
激活函数 SiLU (silu)
归一化 RMS Norm (rms_norm_eps: 1e-06)
位置编码 旋转位置编码

训练信息

该模型训练了182,000步,约0.5个epoch。

训练指标:

最终训练损失:3.3951

初始训练损失:10.7932

训练步数:182,000

训练轮数:0.4997

梯度范数稳定性:在后期阶段稳定在0.50到0.60之间。

训练时间:117小时51分钟

成本

该模型在RunPod的H100 SXM上训练

总计:$340.97

如何加载和运行模型

将所有文件本地安装到一个文件夹中并运行测试脚本。您需要在运行脚本中进行一些调整,例如更新配置/文件路径和测试提示

测试脚本

主项目仓库中提供了用于测试和评估该模型的运行文件:

scasella91/timecapsulellm-pr1

作者 scasella91

text-generation transformers
↓ 0 ♥ 0

创建时间: 2026-01-12 19:20:08+00:00

更新时间: 2026-01-12 19:20:35+00:00

在 Hugging Face 上查看

文件 (18)

.DS_Store
.gitattributes
LICENSE
README.md
config.json
generation_config.json
model.safetensors
onnx/config.json
onnx/generation_config.json
onnx/model.onnx ONNX
onnx/model.onnx_data
onnx/special_tokens_map.json
onnx/tokenizer.json
onnx/tokenizer_config.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
training_args.bin