ONNX 模型库
返回模型

说明文档

ROOK-LM-124M

一个具有思维链推理能力的124M参数国际象棋语言模型,使用Stockfish 16.1生成的合成解释进行训练。

模型详情

模型描述

ROOK-LM以思维链格式生成带有详细推理轨迹的国际象棋走法,包括局面分析、候选走法评估和走法选择。

  • 开发者: Jonathan Rahn, Jenia Jitsev (LAION/JSC), Qi Sun (东京工业大学/Sakana AI)
  • 模型类型: GPT-2(自回归语言模型)
  • 语言: 国际象棋记谱法配合自然语言解释
  • 许可证: MIT
  • 代码库: GitHub
  • 论文: LAION研究笔记
  • 训练日志: Weights & Biases

模型架构

  • 参数量: 124M
  • 架构: GPT-2系列
  • 上下文长度: 最多2048个token
  • 训练框架: llm.c(训练);本仓库中的HF脚本支持实验

用途

直接使用

  • 带解释的国际象棋走法生成
  • 国际象棋局面分析
  • 国际象棋教学辅导
  • 语言模型推理研究

下游使用

  • 针对特定棋风的微调
  • 与国际象棋界面集成
  • 构建国际象棋教学助手

训练详情

训练数据

  • 数据集: rook-40m
  • 规模: 4000万个局面(60亿token)
  • 生成方式: 在Tsubame 4.0超级计算机上使用Stockfish 16.1
  • 格式: FEN局面 → 推理 → 走法

思维链格式

ROOK-LM使用结构化格式,包含局面、候选走法、评估和最佳走法:

<FEN局面>
M: <UCI格式的候选走法>
E: <每个候选走法的评估分数>
B: <UCI格式的最佳走法>

具体训练示例:

rnbqkbnr/pppppppp/8/8/8/8/PPPPPPPP/RNBQKBNR w KQkq - 0 1
M: e2e4 d2d4 g1f3 c2c4 g2g3
E: 0.3 0.3 0.2 0.1 0.0
B: e2e4

解析:

  • FEN记谱法表示的局面(填充至90个字符以保持一致性)
  • M: Stockfish分析得出的前5个候选走法(UCI格式,填充至30个字符)
  • E: 每个候选走法的评估分数(厘兵值/100,填充至40个字符)
  • B: Stockfish选定的最佳走法

生成示例(推理):

# 输入提示
prompt = "r1bqkbnr/pppp1ppp/2n5/4p3/4P3/5N2/PPPP1PPP/RNBQKB1R w KQkq - 2 3"

# 模型生成的续写(去除填充)
output = "M: d2d4 b1c3 f1c4 f1b5 d2d3 E: 0.6 0.5 0.4 0.3 0.2 B: d2d4"

模型学习:

  1. 分析局面
  2. 生成合理的候选走法
  3. 评估每个候选走法
  4. 根据评估选择最佳走法

训练过程

  • 硬件: 2块NVIDIA RTX 4090
  • 框架: llm.c (karpathy/llm.c)
  • 使用llm.c在rook-40m上训练多个epoch;典型序列长度最多2048

评估

性能指标

  • 动作准确率(rook-40m,3个epoch): 22.2%
  • BIG-bench一步杀: 24.4%
    • 数值来自LAION研究笔记

推理质量

模型生成连贯的国际象棋分析,包括:

  • 局面评估
  • 战术模式识别
  • 战略规划
  • 走法论证

技术细节

分词

自定义国际象棋分词器,结合:

  • FEN记谱法token
  • UCI走法记谱法
  • 自然语言词汇表
  • 结构特殊token

与llm.c集成

模型使用llm.c框架进行高效训练:

# 训练命令
./train_gpt2 \
    --input_bin data/rook_train.bin \
    --val_bin data/rook_val.bin \
    --model_file log/model.bin \
    --batch_size 512 \
    --sequence_length 2048

局限性

  • 计算能力: 无深度搜索能力
  • 战术: 可能遗漏复杂的组合
  • 一致性: 推理可能并不总是与走法选择一致
  • 上下文: 受2048 token上下文窗口限制

相关模型

引用

@article{rook2024,
  title={ROOK: Strategic Reasoning in Chess Without Search},
  author={Rahn, Jonathan and Jitsev, Jenia and Sun, Qi},
  journal={LAION Research Notes},
  year={2024},
  url={https://laion.ai/notes/rook/}
}

模型卡片联系方式

Jonathan Rahn - GitHub | 研究主页

指标来源

LAION研究笔记:https://laion.ai/notes/rook/

jrahn/ROOK-LM-124m

作者 jrahn

text-generation transformers
↓ 1 ♥ 0

创建时间: 2024-09-21 14:59:23+00:00

更新时间: 2025-09-17 16:08:17+00:00

在 Hugging Face 上查看

文件 (17)

.gitattributes
README.md
config.json
generation_config.json
merges.txt
model.safetensors
onnx/config.json
onnx/model.onnx ONNX
onnx/ort_config.json
onnx/special_tokens_map.json
onnx/tokenizer.json
onnx/tokenizer_config.json
onnx/vocab.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json