说明文档
Monad (ONNX)
这是 PleIAs/Monad 的 ONNX 版本。它是通过 这个 Hugging Face Space 自动转换并上传的。
在 Transformers.js 中使用
请参阅 text-generation 的管道文档:https://huggingface.co/docs/transformers.js/api/pipelines#module_pipelines.TextGenerationPipeline
⚛️ Monad
<div align="center"> <img src="figures/pleias.jpg" width="60%" alt="Pleias" /> </div>
<p align="center"> <a href="https://pleias.fr/blog/blogsynth-the-new-data-frontier"><b>博客公告</b></a> </p>
Monad 是一个拥有 5600 万参数的通用小型推理模型,在来自 <a href="https://huggingface.co/PleIAs/Baguettotron">SYNTH</a> 的 2000 亿 token 上进行训练,SYNTH 是一个完全开放的通用数据集。
截至 2025 年,Monad 是最小可行语言模型的最佳竞争者。尽管参数量不到 GPT-2 的一半,Monad 不仅能够用连贯的英语回答问题,而且在 MMLU 和其他主要行业基准测试中的表现显著超越随机水平。
<p align="center"> <img width="80%" src="figures/training_efficiency.jpeg"> </p>
Monad 的名字来源于莱布尼茨的概念,即最小可能智能单位的一般理念。
特性
Monad 原生支持带思维链的指令训练。我们实现了一系列专用管道用于:
- 百科知识的记忆(维基百科的 50,000 篇重要文章),不过在这个参数规模下,幻觉现象是难以避免的。
- 带依据的检索增强生成(延续我们 Pleias-RAG 系列的初步实验)
- 算术和简单数学问题求解
- 编辑任务
- 信息提取
- 创意写作,包括一些不常见的合成练习,如避字游戏(lipograms)或版式诗歌。
Monad 严格为英语单语模型。我们训练了一个新的自定义分词器(可能是迄今为止最小的分词器之一,少于 8,000 个独立 token),专门在 SYNTH 上训练,以保持相对较好的压缩率。
模型设计与训练
Monad 是一个 5600 万参数的解码器,采用标准的 Qwen/Llama 类设计,但其极度紧凑的尺寸和对深度的独特架构选择(拥有 64 层)是例外 <p align="center"> <img width="80%" src="figures/monad_structure.png"> </p>
Monad 在 Jean Zay 的 16 台 H100 上进行训练(计算计划编号 A0191016886)。完整的预训练耗时不到 6 小时。
评估
Monad 在 MMLU 上的表现显著超越随机水平,正确率接近 30%。我们在 GSM8K(8%)和 HotPotQA(8%)上也发现了非随机的结果。
据我们所知,在这个参数规模范围内,没有其他模型可以与之进行评估比较。无论从理念还是实践角度来看,Monad 都是独一无二的。
使用与部署
Monad 基于 Qwen 的标准指令风格进行训练。
<|im_start|>user
Who are you?<|im_end|>
<|im_start|>assistant
Monad 尚不支持多轮对话。
Monad 的一个主要预期用例是可解释性研究,因为该模型在可观察性和实际推理性能之间提供了独特的平衡。
onnx-community/Monad-ONNX
作者 onnx-community
创建时间: 2025-11-15 08:44:30+00:00
更新时间: 2025-11-15 17:29:52+00:00
在 Hugging Face 上查看