说明文档

myhaiku-gemma-3-270m-it (ONNX)

本仓库包含经过微调的 Gemma 模型的 ONNX 导出版本： 👉 Mr-Corentin/myhaiku-gemma-3-270m-it

这些 ONNX 模型针对 ONNX Runtime 进行了高效推理优化，适合部署在 CPU、GPU 或 WebGPU 后端上。

模型概述

属性	描述
基础模型	google/gemma-3-270m-it
微调模型	Mr-Corentin/myhaiku-gemma-3-270m-it
导出类型	ONNX (fp32, fp16, q8, q4, q4f16)
框架	ONNX Runtime
用途	文本生成（俳句生成）

可用模型变体

文件	精度	说明
`onnx/model.onnx`	FP32	全精度参考模型
`onnx/model_fp16.onnx`	FP16	推荐用于 GPU
`onnx/model_q8.onnx`	INT4	8位权重
`onnx/model_q4.onnx`	INT4	4位权重，体积更小但精度较低
`onnx/model_q4f16.onnx`	INT4 权重 + FP16 激活

所有模型共享相同的分词器和配置文件。

🚀 使用示例

from transformers import AutoConfig, AutoTokenizer, GenerationConfig
import onnxruntime
import numpy as np

save_path = "path/to/myhaiku-gemma-3-270m-it-onnx"
config = AutoConfig.from_pretrained(save_path)
generation_config = GenerationConfig.from_pretrained(save_path)
tokenizer = AutoTokenizer.from_pretrained(save_path)

model_path = f"{save_path}/onnx/model_fp16.onnx"
session = onnxruntime.InferenceSession(model_path)

prompt = "Write a haiku about the beauty of autumn."
messages = [
    {"role": "system", "content": "You are a haiku generator. Reply with exactly three short lines, no extra text."},
    {"role": "user", "content": prompt},
]

inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="np")
input_ids = inputs["input_ids"]
attention_mask = inputs["attention_mask"]

# 运行推理（生成 1 个 token 的示例）
logits = session.run(None, {"input_ids": input_ids, "attention_mask": attention_mask})[0]
next_token = np.argmax(logits[:, -1, :], axis=-1)
print(tokenizer.decode(next_token[0]))

许可证

本模型和代码采用 MIT 许可证发布。

致谢

基础模型：google/gemma-3-270m-it
微调与 ONNX 导出：Mr-Corentin
转换脚本改编自：xenova/build_gemma.py

Mr-Corentin/myhaiku-gemma-3-270m-it-onnx

作者 Mr-Corentin

text-generation onnxruntime

↓ 0 ♥ 0

创建时间: 2025-10-17 07:53:42+00:00

更新时间: 2025-10-20 12:55:09+00:00

在 Hugging Face 上查看

文件 (20)

.gitattributes

README.md

added_tokens.json

chat_template.jinja

config.json

generation_config.json

onnx/model.onnx ONNX

onnx/model.onnx_data

onnx/model_fp16.onnx ONNX

onnx/model_fp16.onnx_data

onnx/model_q4.onnx ONNX

onnx/model_q4.onnx_data

onnx/model_q4f16.onnx ONNX

onnx/model_q4f16.onnx_data

onnx/model_q8.onnx ONNX

onnx/model_q8.onnx_data

special_tokens_map.json

tokenizer.json

tokenizer.model

tokenizer_config.json