ONNX 模型库
返回模型

说明文档

myhaiku-gemma-3-270m-it (ONNX)

本仓库包含经过微调的 Gemma 模型的 ONNX 导出版本: 👉 Mr-Corentin/myhaiku-gemma-3-270m-it

这些 ONNX 模型针对 ONNX Runtime 进行了高效推理优化,适合部署在 CPUGPUWebGPU 后端上。


模型概述

属性 描述
基础模型 google/gemma-3-270m-it
微调模型 Mr-Corentin/myhaiku-gemma-3-270m-it
导出类型 ONNX (fp32, fp16, q8, q4, q4f16)
框架 ONNX Runtime
用途 文本生成(俳句生成)

可用模型变体

文件 精度 说明
onnx/model.onnx FP32 全精度参考模型
onnx/model_fp16.onnx FP16 推荐用于 GPU
onnx/model_q8.onnx INT4 8位权重
onnx/model_q4.onnx INT4 4位权重,体积更小但精度较低
onnx/model_q4f16.onnx INT4 权重 + FP16 激活

所有模型共享相同的分词器和配置文件。


🚀 使用示例

from transformers import AutoConfig, AutoTokenizer, GenerationConfig
import onnxruntime
import numpy as np

save_path = "path/to/myhaiku-gemma-3-270m-it-onnx"
config = AutoConfig.from_pretrained(save_path)
generation_config = GenerationConfig.from_pretrained(save_path)
tokenizer = AutoTokenizer.from_pretrained(save_path)

model_path = f"{save_path}/onnx/model_fp16.onnx"
session = onnxruntime.InferenceSession(model_path)

prompt = "Write a haiku about the beauty of autumn."
messages = [
    {"role": "system", "content": "You are a haiku generator. Reply with exactly three short lines, no extra text."},
    {"role": "user", "content": prompt},
]

inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="np")
input_ids = inputs["input_ids"]
attention_mask = inputs["attention_mask"]

# 运行推理(生成 1 个 token 的示例)
logits = session.run(None, {"input_ids": input_ids, "attention_mask": attention_mask})[0]
next_token = np.argmax(logits[:, -1, :], axis=-1)
print(tokenizer.decode(next_token[0]))

许可证

本模型和代码采用 MIT 许可证发布。


致谢

Mr-Corentin/myhaiku-gemma-3-270m-it-onnx

作者 Mr-Corentin

text-generation onnxruntime
↓ 0 ♥ 0

创建时间: 2025-10-17 07:53:42+00:00

更新时间: 2025-10-20 12:55:09+00:00

在 Hugging Face 上查看

文件 (20)

.gitattributes
README.md
added_tokens.json
chat_template.jinja
config.json
generation_config.json
onnx/model.onnx ONNX
onnx/model.onnx_data
onnx/model_fp16.onnx ONNX
onnx/model_fp16.onnx_data
onnx/model_q4.onnx ONNX
onnx/model_q4.onnx_data
onnx/model_q4f16.onnx ONNX
onnx/model_q4f16.onnx_data
onnx/model_q8.onnx ONNX
onnx/model_q8.onnx_data
special_tokens_map.json
tokenizer.json
tokenizer.model
tokenizer_config.json