ONNX 模型库

说明文档

license: mit base_model:

Qwen/Qwen3-0.6B pipeline_tag: text-generation tags:
onnx
onnxruntime-genai
oga

我的测试 (Tesla P4)

CUDA int4: 1153 MiB, 12 TPS
CUDA fp16: 2179 MiB, 29 TPS
CUDA fp32: dnf

SamTheDev/Qwen3-0.6B-oga

作者 SamTheDev

text-generation

↓ 0 ♥ 0

创建时间: 2025-07-13 10:48:56+00:00

更新时间: 2025-07-13 12:15:23+00:00

在 Hugging Face 上查看

文件 (22)

.gitattributes

README.md

cuda/fp16/added_tokens.json

cuda/fp16/chat_template.jinja

cuda/fp16/genai_config.json

cuda/fp16/merges.txt

cuda/fp16/model.onnx ONNX

cuda/fp16/model.onnx.data

cuda/fp16/special_tokens_map.json

cuda/fp16/tokenizer.json

cuda/fp16/tokenizer_config.json

cuda/fp16/vocab.json

cuda/int4/added_tokens.json

cuda/int4/chat_template.jinja

cuda/int4/genai_config.json

cuda/int4/merges.txt

cuda/int4/model.onnx ONNX

cuda/int4/model.onnx.data

cuda/int4/special_tokens_map.json

cuda/int4/tokenizer.json

cuda/int4/tokenizer_config.json

cuda/int4/vocab.json