返回模型
说明文档
ROOK-LM-124M
一个具有思维链推理能力的124M参数国际象棋语言模型,使用Stockfish 16.1生成的合成解释进行训练。
模型详情
模型描述
ROOK-LM以思维链格式生成带有详细推理轨迹的国际象棋走法,包括局面分析、候选走法评估和走法选择。
- 开发者: Jonathan Rahn, Jenia Jitsev (LAION/JSC), Qi Sun (东京工业大学/Sakana AI)
- 模型类型: GPT-2(自回归语言模型)
- 语言: 国际象棋记谱法配合自然语言解释
- 许可证: MIT
- 代码库: GitHub
- 论文: LAION研究笔记
- 训练日志: Weights & Biases
模型架构
- 参数量: 124M
- 架构: GPT-2系列
- 上下文长度: 最多2048个token
- 训练框架: llm.c(训练);本仓库中的HF脚本支持实验
用途
直接使用
- 带解释的国际象棋走法生成
- 国际象棋局面分析
- 国际象棋教学辅导
- 语言模型推理研究
下游使用
- 针对特定棋风的微调
- 与国际象棋界面集成
- 构建国际象棋教学助手
训练详情
训练数据
- 数据集: rook-40m
- 规模: 4000万个局面(60亿token)
- 生成方式: 在Tsubame 4.0超级计算机上使用Stockfish 16.1
- 格式: FEN局面 → 推理 → 走法
思维链格式
ROOK-LM使用结构化格式,包含局面、候选走法、评估和最佳走法:
<FEN局面>
M: <UCI格式的候选走法>
E: <每个候选走法的评估分数>
B: <UCI格式的最佳走法>
具体训练示例:
rnbqkbnr/pppppppp/8/8/8/8/PPPPPPPP/RNBQKBNR w KQkq - 0 1
M: e2e4 d2d4 g1f3 c2c4 g2g3
E: 0.3 0.3 0.2 0.1 0.0
B: e2e4
解析:
- FEN记谱法表示的局面(填充至90个字符以保持一致性)
- M: Stockfish分析得出的前5个候选走法(UCI格式,填充至30个字符)
- E: 每个候选走法的评估分数(厘兵值/100,填充至40个字符)
- B: Stockfish选定的最佳走法
生成示例(推理):
# 输入提示
prompt = "r1bqkbnr/pppp1ppp/2n5/4p3/4P3/5N2/PPPP1PPP/RNBQKB1R w KQkq - 2 3"
# 模型生成的续写(去除填充)
output = "M: d2d4 b1c3 f1c4 f1b5 d2d3 E: 0.6 0.5 0.4 0.3 0.2 B: d2d4"
模型学习:
- 分析局面
- 生成合理的候选走法
- 评估每个候选走法
- 根据评估选择最佳走法
训练过程
- 硬件: 2块NVIDIA RTX 4090
- 框架: llm.c (karpathy/llm.c)
- 使用llm.c在rook-40m上训练多个epoch;典型序列长度最多2048
评估
性能指标
- 动作准确率(rook-40m,3个epoch): 22.2%
- BIG-bench一步杀: 24.4%
- 数值来自LAION研究笔记
推理质量
模型生成连贯的国际象棋分析,包括:
- 局面评估
- 战术模式识别
- 战略规划
- 走法论证
技术细节
分词
自定义国际象棋分词器,结合:
- FEN记谱法token
- UCI走法记谱法
- 自然语言词汇表
- 结构特殊token
与llm.c集成
模型使用llm.c框架进行高效训练:
# 训练命令
./train_gpt2 \
--input_bin data/rook_train.bin \
--val_bin data/rook_val.bin \
--model_file log/model.bin \
--batch_size 512 \
--sequence_length 2048
局限性
- 计算能力: 无深度搜索能力
- 战术: 可能遗漏复杂的组合
- 一致性: 推理可能并不总是与走法选择一致
- 上下文: 受2048 token上下文窗口限制
相关模型
- ROOK-CLF-9M: 分类方法
- RookWorld-LM-124M: 统一的智能体+环境模型
引用
@article{rook2024,
title={ROOK: Strategic Reasoning in Chess Without Search},
author={Rahn, Jonathan and Jitsev, Jenia and Sun, Qi},
journal={LAION Research Notes},
year={2024},
url={https://laion.ai/notes/rook/}
}
模型卡片联系方式
指标来源
LAION研究笔记:https://laion.ai/notes/rook/
jrahn/ROOK-LM-124m
作者 jrahn
text-generation
transformers
↓ 1
♥ 0
创建时间: 2024-09-21 14:59:23+00:00
更新时间: 2025-09-17 16:08:17+00:00
在 Hugging Face 上查看文件 (17)
.gitattributes
README.md
config.json
generation_config.json
merges.txt
model.safetensors
onnx/config.json
onnx/model.onnx
ONNX
onnx/ort_config.json
onnx/special_tokens_map.json
onnx/tokenizer.json
onnx/tokenizer_config.json
onnx/vocab.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json