返回模型
说明文档
myhaiku-gemma-3-270m-it (ONNX)
本仓库包含经过微调的 Gemma 模型的 ONNX 导出版本: 👉 Mr-Corentin/myhaiku-gemma-3-270m-it
这些 ONNX 模型针对 ONNX Runtime 进行了高效推理优化,适合部署在 CPU、GPU 或 WebGPU 后端上。
模型概述
| 属性 | 描述 |
|---|---|
| 基础模型 | google/gemma-3-270m-it |
| 微调模型 | Mr-Corentin/myhaiku-gemma-3-270m-it |
| 导出类型 | ONNX (fp32, fp16, q8, q4, q4f16) |
| 框架 | ONNX Runtime |
| 用途 | 文本生成(俳句生成) |
可用模型变体
| 文件 | 精度 | 说明 |
|---|---|---|
onnx/model.onnx |
FP32 | 全精度参考模型 |
onnx/model_fp16.onnx |
FP16 | 推荐用于 GPU |
onnx/model_q8.onnx |
INT4 | 8位权重 |
onnx/model_q4.onnx |
INT4 | 4位权重,体积更小但精度较低 |
onnx/model_q4f16.onnx |
INT4 权重 + FP16 激活 |
所有模型共享相同的分词器和配置文件。
🚀 使用示例
from transformers import AutoConfig, AutoTokenizer, GenerationConfig
import onnxruntime
import numpy as np
save_path = "path/to/myhaiku-gemma-3-270m-it-onnx"
config = AutoConfig.from_pretrained(save_path)
generation_config = GenerationConfig.from_pretrained(save_path)
tokenizer = AutoTokenizer.from_pretrained(save_path)
model_path = f"{save_path}/onnx/model_fp16.onnx"
session = onnxruntime.InferenceSession(model_path)
prompt = "Write a haiku about the beauty of autumn."
messages = [
{"role": "system", "content": "You are a haiku generator. Reply with exactly three short lines, no extra text."},
{"role": "user", "content": prompt},
]
inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="np")
input_ids = inputs["input_ids"]
attention_mask = inputs["attention_mask"]
# 运行推理(生成 1 个 token 的示例)
logits = session.run(None, {"input_ids": input_ids, "attention_mask": attention_mask})[0]
next_token = np.argmax(logits[:, -1, :], axis=-1)
print(tokenizer.decode(next_token[0]))
许可证
本模型和代码采用 MIT 许可证发布。
致谢
- 基础模型:google/gemma-3-270m-it
- 微调与 ONNX 导出:Mr-Corentin
- 转换脚本改编自:xenova/build_gemma.py
Mr-Corentin/myhaiku-gemma-3-270m-it-onnx
作者 Mr-Corentin
text-generation
onnxruntime
↓ 0
♥ 0
创建时间: 2025-10-17 07:53:42+00:00
更新时间: 2025-10-20 12:55:09+00:00
在 Hugging Face 上查看文件 (20)
.gitattributes
README.md
added_tokens.json
chat_template.jinja
config.json
generation_config.json
onnx/model.onnx
ONNX
onnx/model.onnx_data
onnx/model_fp16.onnx
ONNX
onnx/model_fp16.onnx_data
onnx/model_q4.onnx
ONNX
onnx/model_q4.onnx_data
onnx/model_q4f16.onnx
ONNX
onnx/model_q4f16.onnx_data
onnx/model_q8.onnx
ONNX
onnx/model_q8.onnx_data
special_tokens_map.json
tokenizer.json
tokenizer.model
tokenizer_config.json