ONNX 模型库
返回模型

说明文档

ONNX 导出:Qwen/Qwen3-0.6B

这是 Qwen/Qwen3-0.6B 的 ONNX 转换并优化版本。

模型详情

  • 基础模型: Qwen/Qwen3-0.6B
  • 任务: text-generation(文本生成)
  • Opset 版本: 17
  • 优化: FP32(无量化)

使用方法

安装

对于轻量级的移动端/无服务器部署,您只需要 onnxruntimetokenizers

pip install onnxruntime tokenizers optimum

Python 示例


from tokenizers import Tokenizer
import onnxruntime as ort
import numpy as np

# 1. 加载轻量级分词器(无需 Transformers 依赖)
tokenizer = Tokenizer.from_pretrained("broadfield-dev/Qwen3-0.6B-onnx")

# 2. 加载 ONNX 模型
# 对于生成/聊天模型,请使用:optimum.onnxruntime.ORTModelForCausalLM
session = ort.InferenceSession("model.onnx")

# 3. 预处理(简单的文本编码)
text = "Run inference on mobile!"
encoding = tokenizer.encode(text)

# 准备输入(具体名称因模型而异,通常是 input_ids + attention_mask)
inputs = {
    "input_ids": np.array([encoding.ids], dtype=np.int64),
    "attention_mask": np.array([encoding.attention_mask], dtype=np.int64)
}

# 4. 运行推理
outputs = session.run(None, inputs)
print("Output logits shape:", outputs[0].shape)

关于此导出

此模型使用 Optimum 导出。

它包含 FP32(无量化) 量化设置,并预编译了 tokenizer.json 以实现快速加载。

broadfield-dev/Qwen3-0.6B-onnx

作者 broadfield-dev

text-generation transformers
↓ 1 ♥ 0

创建时间: 2026-01-04 10:48:42+00:00

更新时间: 2026-01-04 20:21:21+00:00

在 Hugging Face 上查看

文件 (14)

.gitattributes
README.md
added_tokens.json
chat_template.jinja
config.json
generation_config.json
merges.txt
model.onnx ONNX
model.onnx_data
ort_config.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json