ONNX 模型库
返回模型

说明文档

ONNX 导出:Qwen/Qwen3-0.6B

  • 原始模型: Qwen/Qwen3-0.6B
  • 架构: causal
  • 任务: text-generation
  • 优化: INT8 (ARM64)
  • Opset: 17

使用方法


from tokenizers import Tokenizer
import onnxruntime as ort
import numpy as np

# 1. 加载分词器
tokenizer = Tokenizer.from_pretrained("broadfield-dev/Qwen3-0.6B-20260105-060935-onnx")

# 2. 加载模型
session = ort.InferenceSession("model.onnx")

# 3. 推理
text = "Hello world"
encoding = tokenizer.encode(text)
inputs = {
    "input_ids": np.array([encoding.ids], dtype=np.int64),
    "attention_mask": np.array([encoding.attention_mask], dtype=np.int64)
}

outputs = session.run(None, inputs)
print(f"输出形状: {outputs[0].shape}")

模型详情

该模型已导出为 ONNX 格式,用于在边缘设备和生产环境中进行高效推理。 导出过程保留了原始模型的能力,同时针对部署进行了优化。

broadfield-dev/Qwen3-0.6B-20260105-060935-onnx

作者 broadfield-dev

text-generation transformers
↓ 1 ♥ 0

创建时间: 2026-01-05 05:11:13+00:00

更新时间: 2026-01-05 05:11:19+00:00

在 Hugging Face 上查看

文件 (14)

.gitattributes
README.md
added_tokens.json
chat_template.jinja
config.json
generation_config.json
merges.txt
model.onnx ONNX
model_quantized.onnx.data
ort_config.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json