返回模型
说明文档
ONNX 导出:Qwen/Qwen3-0.6B
这是 Qwen/Qwen3-0.6B 的 ONNX 转换并优化版本。
模型详情
- 基础模型:
Qwen/Qwen3-0.6B - 任务:
text-generation(文本生成) - Opset 版本:
17 - 优化:
FP32(无量化)
使用方法
安装
对于轻量级的移动端/无服务器部署,您只需要 onnxruntime 和 tokenizers。
pip install onnxruntime tokenizers optimum
Python 示例
from tokenizers import Tokenizer
import onnxruntime as ort
import numpy as np
# 1. 加载轻量级分词器(无需 Transformers 依赖)
tokenizer = Tokenizer.from_pretrained("broadfield-dev/Qwen3-0.6B-onnx")
# 2. 加载 ONNX 模型
# 对于生成/聊天模型,请使用:optimum.onnxruntime.ORTModelForCausalLM
session = ort.InferenceSession("model.onnx")
# 3. 预处理(简单的文本编码)
text = "Run inference on mobile!"
encoding = tokenizer.encode(text)
# 准备输入(具体名称因模型而异,通常是 input_ids + attention_mask)
inputs = {
"input_ids": np.array([encoding.ids], dtype=np.int64),
"attention_mask": np.array([encoding.attention_mask], dtype=np.int64)
}
# 4. 运行推理
outputs = session.run(None, inputs)
print("Output logits shape:", outputs[0].shape)
关于此导出
此模型使用 Optimum 导出。
它包含 FP32(无量化) 量化设置,并预编译了 tokenizer.json 以实现快速加载。
broadfield-dev/Qwen3-0.6B-onnx
作者 broadfield-dev
text-generation
transformers
↓ 1
♥ 0
创建时间: 2026-01-04 10:48:42+00:00
更新时间: 2026-01-04 20:21:21+00:00
在 Hugging Face 上查看文件 (14)
.gitattributes
README.md
added_tokens.json
chat_template.jinja
config.json
generation_config.json
merges.txt
model.onnx
ONNX
model.onnx_data
ort_config.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json