说明文档

ONNX 导出：Qwen/Qwen3-0.6B

原始模型： Qwen/Qwen3-0.6B
架构： causal
任务： text-generation
优化： INT8 (ARM64)
Opset： 17

使用方法


from tokenizers import Tokenizer
import onnxruntime as ort
import numpy as np

# 1. 加载分词器
tokenizer = Tokenizer.from_pretrained("broadfield-dev/Qwen3-0.6B-20260105-060935-onnx")

# 2. 加载模型
session = ort.InferenceSession("model.onnx")

# 3. 推理
text = "Hello world"
encoding = tokenizer.encode(text)
inputs = {
    "input_ids": np.array([encoding.ids], dtype=np.int64),
    "attention_mask": np.array([encoding.attention_mask], dtype=np.int64)
}

outputs = session.run(None, inputs)
print(f"输出形状: {outputs[0].shape}")

模型详情

该模型已导出为 ONNX 格式，用于在边缘设备和生产环境中进行高效推理。导出过程保留了原始模型的能力，同时针对部署进行了优化。

broadfield-dev/Qwen3-0.6B-20260105-060935-onnx

作者 broadfield-dev

text-generation transformers

↓ 1 ♥ 0

创建时间: 2026-01-05 05:11:13+00:00

更新时间: 2026-01-05 05:11:19+00:00

在 Hugging Face 上查看

文件 (14)

.gitattributes

README.md

added_tokens.json

chat_template.jinja

config.json

generation_config.json

merges.txt

model.onnx ONNX

model_quantized.onnx.data

ort_config.json

special_tokens_map.json

tokenizer.json

tokenizer_config.json

vocab.json