说明文档

haykgrigorian/TimeCapsuleLLM-v2-London-1800-1875: Llama架构 1.2B 模型

模型概述

v2 模型，使用基于Llama的因果语言模型在112GB的1800-1875年伦敦文本上从头训练而成。

详情	数值
模型架构	LlamaForCausalLM (仅解码器Transformer)
参数量	~12.2亿
训练类型	从头训练 (随机初始化)
分词器	自定义BPE，词表大小 32,000
序列长度	2048 个token
注意力类型	分组查询注意力 (GQA)

配置详情

该模型是基于Llama的自定义大小和配置：

参数	数值
层数	22
隐藏层大小	2048
中间层大小 ($\text{d}_{\text{ff}}$)	5504
注意力头	16 (查询) / 8 (键/值)
激活函数	SiLU (`silu`)
归一化	RMS Norm (`rms_norm_eps`: 1e-06)
位置编码	旋转位置编码

训练信息

该模型训练了182,000步，约0.5个epoch。

训练指标：

最终训练损失：3.3951

初始训练损失：10.7932

训练步数：182,000

训练轮数：0.4997

梯度范数稳定性：在后期阶段稳定在0.50到0.60之间。

训练时间：117小时51分钟

成本

该模型在RunPod的H100 SXM上训练

总计：$340.97

如何加载和运行模型

将所有文件本地安装到一个文件夹中并运行测试脚本。您需要在运行脚本中进行一些调整，例如更新配置/文件路径和测试提示

测试脚本

主项目仓库中提供了用于测试和评估该模型的运行文件：

测试脚本链接： GitHub上的run_v2.py

scasella91/timecapsulellm-pr1

作者 scasella91

text-generation transformers

↓ 0 ♥ 0

创建时间: 2026-01-12 19:20:08+00:00

更新时间: 2026-01-12 19:20:35+00:00

在 Hugging Face 上查看

文件 (18)

.DS_Store

.gitattributes

LICENSE

README.md

config.json

generation_config.json

model.safetensors

onnx/config.json

onnx/generation_config.json

onnx/model.onnx ONNX

onnx/model.onnx_data

onnx/special_tokens_map.json

onnx/tokenizer.json

onnx/tokenizer_config.json

special_tokens_map.json

tokenizer.json

tokenizer_config.json

training_args.bin