说明文档

ONNX 导出：Qwen/Qwen3-0.6B

这是 Qwen/Qwen3-0.6B 的 ONNX 转换并优化版本。

模型详情

基础模型： Qwen/Qwen3-0.6B
任务： text-generation（文本生成）
Opset 版本： 17
优化： FP32（无量化）

使用方法

安装

对于轻量级的移动端/无服务器部署，您只需要 onnxruntime 和 tokenizers。

pip install onnxruntime tokenizers optimum

Python 示例


from tokenizers import Tokenizer
import onnxruntime as ort
import numpy as np

# 1. 加载轻量级分词器（无需 Transformers 依赖）
tokenizer = Tokenizer.from_pretrained("broadfield-dev/Qwen3-0.6B-onnx")

# 2. 加载 ONNX 模型
# 对于生成/聊天模型，请使用：optimum.onnxruntime.ORTModelForCausalLM
session = ort.InferenceSession("model.onnx")

# 3. 预处理（简单的文本编码）
text = "Run inference on mobile!"
encoding = tokenizer.encode(text)

# 准备输入（具体名称因模型而异，通常是 input_ids + attention_mask）
inputs = {
    "input_ids": np.array([encoding.ids], dtype=np.int64),
    "attention_mask": np.array([encoding.attention_mask], dtype=np.int64)
}

# 4. 运行推理
outputs = session.run(None, inputs)
print("Output logits shape:", outputs[0].shape)

关于此导出

此模型使用 Optimum 导出。

它包含 FP32（无量化） 量化设置，并预编译了 tokenizer.json 以实现快速加载。

broadfield-dev/Qwen3-0.6B-onnx

作者 broadfield-dev

text-generation transformers

↓ 1 ♥ 0

创建时间: 2026-01-04 10:48:42+00:00

更新时间: 2026-01-04 20:21:21+00:00

在 Hugging Face 上查看

文件 (14)

.gitattributes

README.md

added_tokens.json

chat_template.jinja

config.json

generation_config.json

merges.txt

model.onnx ONNX

model.onnx_data

ort_config.json

special_tokens_map.json

tokenizer.json

tokenizer_config.json

vocab.json