说明文档

Monad (ONNX)

这是 PleIAs/Monad 的 ONNX 版本。它是通过这个 Hugging Face Space 自动转换并上传的。

在 Transformers.js 中使用

请参阅 text-generation 的管道文档：https://huggingface.co/docs/transformers.js/api/pipelines#module_pipelines.TextGenerationPipeline

⚛️ Monad

Monad 是一个拥有 5600 万参数的通用小型推理模型，在来自 <a href="https://huggingface.co/PleIAs/Baguettotron">SYNTH</a> 的 2000 亿 token 上进行训练，SYNTH 是一个完全开放的通用数据集。

截至 2025 年，Monad 是最小可行语言模型的最佳竞争者。尽管参数量不到 GPT-2 的一半，Monad 不仅能够用连贯的英语回答问题，而且在 MMLU 和其他主要行业基准测试中的表现显著超越随机水平。

Monad 的名字来源于莱布尼茨的概念，即最小可能智能单位的一般理念。

特性

Monad 原生支持带思维链的指令训练。我们实现了一系列专用管道用于：

百科知识的记忆（维基百科的 50,000 篇重要文章），不过在这个参数规模下，幻觉现象是难以避免的。
带依据的检索增强生成（延续我们 Pleias-RAG 系列的初步实验）
算术和简单数学问题求解
编辑任务
信息提取
创意写作，包括一些不常见的合成练习，如避字游戏（lipograms）或版式诗歌。

Monad 严格为英语单语模型。我们训练了一个新的自定义分词器（可能是迄今为止最小的分词器之一，少于 8,000 个独立 token），专门在 SYNTH 上训练，以保持相对较好的压缩率。

模型设计与训练

Monad 是一个 5600 万参数的解码器，采用标准的 Qwen/Llama 类设计，但其极度紧凑的尺寸和对深度的独特架构选择（拥有 64 层）是例外 <p align="center"> <img width="80%" src="figures/monad_structure.png"> </p>

Monad 在 Jean Zay 的 16 台 H100 上进行训练（计算计划编号 A0191016886）。完整的预训练耗时不到 6 小时。

评估

Monad 在 MMLU 上的表现显著超越随机水平，正确率接近 30%。我们在 GSM8K（8%）和 HotPotQA（8%）上也发现了非随机的结果。

据我们所知，在这个参数规模范围内，没有其他模型可以与之进行评估比较。无论从理念还是实践角度来看，Monad 都是独一无二的。

使用与部署

Monad 基于 Qwen 的标准指令风格进行训练。

<|im_start|>user
Who are you?<|im_end|>
<|im_start|>assistant
Monad 尚不支持多轮对话。

Monad 的一个主要预期用例是可解释性研究，因为该模型在可观察性和实际推理性能之间提供了独特的平衡。

onnx-community/Monad-ONNX

作者 onnx-community

text-generation transformers.js

↓ 1 ♥ 0

创建时间: 2025-11-15 08:44:30+00:00

更新时间: 2025-11-15 17:29:52+00:00

在 Hugging Face 上查看

文件 (18)

.gitattributes

README.md

config.json

generation_config.json

onnx/model.onnx ONNX

onnx/model.onnx_data

onnx/model_fp16.onnx ONNX

onnx/model_fp16.onnx_data

onnx/model_q4.onnx ONNX

onnx/model_q4.onnx_data

onnx/model_q4f16.onnx ONNX

onnx/model_q4f16.onnx_data

onnx/model_quantized.onnx ONNX

onnx/model_quantized.onnx_data

quantize_config.json

special_tokens_map.json

tokenizer.json

tokenizer_config.json