说明文档
Gheya-63m (ONNX)
这是 NaA-IA/Gheya-63m 的 ONNX 版本。它使用 此 Hugging Face Space 自动转换并上传。
使用 Transformers.js
请参阅 text-generation 的管道文档:https://huggingface.co/docs/transformers.js/api/pipelines#module_pipelines.TextGenerationPipeline
📚 官方文档:Gheya-63m 🚀

Clemylia SLM 的原始基础模型
欢迎来到小语言模型 (SLM) 的未来!Gheya-63m 是由 Clemylia 设计和训练的全新 $from : scratch$ 架构基础。该模型旨在为下一代专用模型(如 Iris 或 Charlotte 系列)提供稳健且优化的基础。
🛠️ 关键技术特性
| 规格说明 | 详情 | 在架构中的作用 |
|---|---|---|
| 模型名称 | Gheya-63m |
新基础架构的名称。 |
| 规模 | 6377 万参数 | 可在 CPU 或小型 GPU 上快速高效运行。 |
| 创建方法 | $From : Scratch$ 训练 | 模型的设计和训练不依赖于其他预存架构。 |
| 训练语料库 | $\approx$ 150 万 Tokens | 超大重复语料库。目的是建立文本和语言的原始基础,以便为通过微调创建创意 SLM 提供稳定的基础。 |
| 架构 | Transformer-Decoder | 用于文本生成的标准架构。 |
⚠️ 重要使用警告
Gheya-63m 是一个预训练(原始基础)模型。其作用是证明架构的稳定性并学习语法。
此模型以"概念验证"形式发布,而非用于最终使用。
| 模型可以做到的 | 模型无法做到的 |
|---|---|
| ✅ 生成序列(续写句子) | ❌ 回答常识性问题(历史、地理等) |
| ✅ 演示 63M 模型的稳定性 | ❌ 具有叙事连贯性或个性(无 Iris 或 Charlotte 风格) |
| ✅ 作为微调 (Fine-Tuning) 的起点 | ❌ 用于生产环境或对话辅助(回答不连贯或出现 [pad]) |
⚙️ 如何使用 Gheya-63m(测试模式)
如果您下载 Gheya-63m(通过 LM Studio 或 Hugging Face),请将其用于以下基本任务:
- 测试序列补全: 验证模型是否能成功预测其学习领域中简单句子的下一个词(例如:AI 概念、生物学)。
- 测量性能: 评估不同机器上的生成速度(测量 tok/sec)。
- 准备 Fine-Tuning: 使用此模型作为基础 (base model) 创建您自己的专用模型(通过注入您自己的主题数据)。
📝 提示词说明
由于该模型未经过指令遵循训练,请给予非常清晰且技术性的句子开头。
提示词示例:
\"在深度学习理论中,*反向传播* 是允许...的算法\"
🚀 下一步:微调模型
Gheya-63m 架构的真正威力将在未来的微调版本中展现:
- Charlotte-Gheya: 新一代伦理助手。
- Iris-Gheya: 新一代叙事和创意模型。
我们鼓励您关注更新,以发现将在此稳健基础上构建的模型!
🛑 Gheya-63m 无法生成正确可理解的句子。这在目前的发展阶段是正常的, Gheya-63m 将针对特定角色和风格进行系列微调,然后才能生成人类可理解的文本。
可用的 Gheya 版本:
-
° - 63M(在 1 个 epoch 上训练 150 万 tokens)- 更稳定且训练更充分
-
° - 203M(先在 1000 行上训练,然后在约 11k 行 ~ 20 万 tokens 上训练)- 稳定性较差且训练不足
--
如有关于 Gheya $from : scratch$ 架构的任何问题,请联系 Clemylia。
Clemylia/Gheya-63m-ONNX
作者 Clemylia
创建时间: 2026-01-09 12:58:58+00:00
更新时间: 2026-01-09 12:59:07+00:00
在 Hugging Face 上查看