说明文档

这是重新创建 roneneldan/TinyStories-1M 的第一个版本，但使用的是 Llama 架构。

完整的训练过程包含在 notebook train.ipynb 中。重新创建它非常简单，只需下载 TinyStoriesV2-GPT4-train.txt 和 TinyStoriesV2-GPT4-valid.txt，放在与 notebook 相同的文件夹中，然后运行单元格即可。验证内容不会被脚本使用，所以你可以放任何东西在
Backup 目录中有一个脚本 do_backup，我用它来将权重从远程机器复制到本地。权重生成得非常快，以至于脚本复制完权重 N+1 时
这是一个非常 PoC 的版本。训练会截断长于上下文大小的故事，并且不使用任何滑动窗口来从头开始训练故事
训练在 40GB A100 上大约用了 9 小时（每个 epoch 3 小时）。使用了约 30GB VRAM
我使用 open_llama_3b 的分词器。然而我在本地使用时遇到了问题 (https://github.com/openlm-research/open_llama/issues/69)。在预装了库的云机器上没有这个问题。
Demo 脚本是 demo.py
验证脚本提供如下：valid.py。使用方法为 python valid.py path/to/TinyStoriesV2-GPT4-valid.txt [optional-model-id-or-path]：训练后我认为没有必要将验证集分块处理
此版本使用了一个非常愚蠢的缓存机制来打乱故事进行训练：它保留 N 个最近加载的块的缓存，所以如果随机打乱请求一个故事，它可能会使用缓存或加载块。训练数据集太小，所以在下一个版本中我会去掉它。

from transformers import AutoModelForCausalLM, AutoTokenizer

Maykeye/TinyLLama-v0

作者 Maykeye

text-generation transformers

↓ 100.8K ♥ 43

创建时间: 2023-07-08 04:50:15+00:00

更新时间: 2025-03-05 12:38:35+00:00

.gitattributes

README.md

backup/do_backup.py

backup/step-1-10300.bin

config.json

demo.py

generation_config.json

model.onnx ONNX

model.safetensors

pytorch_model.bin

special_tokens_map.json

tokenizer.json

tokenizer.model

tokenizer_config.json

train.ipynb

valid.py