ONNX 模型库
返回模型

说明文档


license: mit base_model:

  • Qwen/Qwen3-1.7B pipeline_tag: text-generation tags:
  • onnx
  • onnxruntime-genai
  • oga

我的测试 (Tesla P4)

  • CUDA int4: 2179 MiB, 6 TPS
  • CUDA fp16: 4221 MiB, 21 TPS
  • CUDA fp32: dnf (内存不足)

SamTheDev/Qwen3-1.7B-oga

作者 SamTheDev

text-generation
↓ 0 ♥ 0

创建时间: 2025-07-13 11:59:28+00:00

更新时间: 2025-07-13 12:48:27+00:00

在 Hugging Face 上查看

文件 (32)

.gitattributes
README.md
cuda/fp16/added_tokens.json
cuda/fp16/chat_template.jinja
cuda/fp16/genai_config.json
cuda/fp16/merges.txt
cuda/fp16/model.onnx ONNX
cuda/fp16/model.onnx.data
cuda/fp16/special_tokens_map.json
cuda/fp16/tokenizer.json
cuda/fp16/tokenizer_config.json
cuda/fp16/vocab.json
cuda/fp32/added_tokens.json
cuda/fp32/chat_template.jinja
cuda/fp32/genai_config.json
cuda/fp32/merges.txt
cuda/fp32/model.onnx ONNX
cuda/fp32/model.onnx.data
cuda/fp32/special_tokens_map.json
cuda/fp32/tokenizer.json
cuda/fp32/tokenizer_config.json
cuda/fp32/vocab.json
cuda/int4/added_tokens.json
cuda/int4/chat_template.jinja
cuda/int4/genai_config.json
cuda/int4/merges.txt
cuda/int4/model.onnx ONNX
cuda/int4/model.onnx.data
cuda/int4/special_tokens_map.json
cuda/int4/tokenizer.json
cuda/int4/tokenizer_config.json
cuda/int4/vocab.json