ONNX 模型库
返回模型

说明文档

ABEJA Qwen 2.5 7B 日语版 - QNN 优化

本仓库包含针对高通神经网络(QNN)部署优化的 ABEJA Qwen 2.5 7B 日语模型。

模型详情

  • 基础模型: abeja/Qwen2.5-7B-Japanese
  • 架构: Qwen2ForCausalLM
  • 参数量: ~7.6B
  • 语言: 日语(主要)、英语(次要)
  • 量化: 4-bit NF4
  • 目标硬件: Snapdragon 8cx Gen 2+ (SM8350)

可用格式

1. 量化 PyTorch 模型

  • 路径: quantized_simple/
  • 格式: 4-bit NF4 量化
  • 大小: ~4.5GB(从 ~15GB 压缩)
  • 用途: 使用 transformers 直接推理

2. ONNX 模型

  • 路径: onnx/
  • 模型:
    • prefill/model.onnx - 上下文预填充
    • token_gen/model.onnx - 词元生成
  • 用途: 跨平台推理

3. 量化 ONNX 模型

  • 路径: quantized_onnx/
  • 格式: 动态量化(INT8)
  • 用途: 优化的 ONNX 推理

4. QNN 编译模型

  • 路径: qnn_compiled/
  • 格式: 高通神经网络格式
  • 目标: Snapdragon 设备
  • 用途: 原生 ARM64 部署

使用方法

量化 PyTorch 模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(\"marcusmi4n/abeja-qwen2.5-7b-japanese-qnn\", subfolder=\"quantized_simple\")
tokenizer = AutoTokenizer.from_pretrained(\"marcusmi4n/abeja-qwen2.5-7b-japanese-qnn\", subfolder=\"quantized_simple\")

# Japanese text generation
inputs = tokenizer(\"こんにちは、私は\", return_tensors=\"pt\")
outputs = model.generate(**inputs, max_length=100, do_sample=True)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

ONNX 推理

import onnxruntime as ort

# Load ONNX model
session = ort.InferenceSession(\"marcusmi4n/abeja-qwen2.5-7b-japanese-qnn/onnx/prefill/model.onnx\")
# Run inference...

QNN 部署

# Deploy to Snapdragon device
adb push marcusmi4n/abeja-qwen2.5-7b-japanese-qnn/qnn_compiled/ /data/local/tmp/qnn_model/
# Use QNN runtime for inference

性能

  • 量化: 体积减少 75%
  • 速度: 推理速度提升 2-3 倍
  • 内存: ~4.5GB 内存占用
  • 词元/秒: 在 Snapdragon 8cx Gen 2+ 上可达 8-15 词元/秒

硬件兼容性

  • ✅ Snapdragon 8cx Gen 2+
  • ✅ Snapdragon 8cx Gen 3
  • ✅ Snapdragon 8 Gen 1+
  • ✅ Windows on ARM 设备
  • ✅ Microsoft Surface Pro X
  • ✅ Dell Latitude 7420

文件结构

marcusmi4n/abeja-qwen2.5-7b-japanese-qnn/
├── quantized_simple/          # 4-bit 量化 PyTorch 模型
│   ├── model.safetensors
│   ├── config.json
│   ├── tokenizer.json
│   └── model_info.json
├── onnx/                      # ONNX 模型
│   ├── prefill/model.onnx
│   └── token_gen/model.onnx
├── quantized_onnx/            # 量化 ONNX 模型
│   ├── prefill/model_quantized.onnx
│   └── token_gen/model_quantized.onnx
├── qnn_compiled/              # QNN 编译模型
│   ├── prefill/
│   ├── token_gen/
│   └── deployment_info.json
└── README.md                  # 本文件

许可证

Apache 2.0 - 与基础 ABEJA Qwen 2.5 模型相同

引用

@misc{abeja-qwen25-qnn,
  title={ABEJA Qwen 2.5 7B Japanese - QNN Optimized},
  author={QNN Conversion Pipeline},
  year={2025},
  url={https://huggingface.co/marcusmi4n/abeja-qwen2.5-7b-japanese-qnn}
}

基础模型引用

请引用原始 ABEJA Qwen 2.5 论文:

@article{abeja-qwen2.5,
  title={ABEJA Qwen 2.5: Japanese Language Model},
  author={ABEJA Inc.},
  journal={arXiv preprint},
  year={2024}
}

marcusmi4n/abeja-qwen2.5-7b-japanese-qnn

作者 marcusmi4n

text-generation transformers
↓ 0 ♥ 1

创建时间: 2025-09-01 12:51:06+00:00

更新时间: 2025-09-02 15:24:05+00:00

在 Hugging Face 上查看

文件 (57)

.gitattributes
README.md
deployment_info.json
merges.txt
onnx/model_info.json
onnx/prefill/model.onnx ONNX
onnx/token_gen/model.onnx ONNX
prefill/model.json
prefill/model.serialized
prefill/model.so
qnn_compiled/deployment_info.json
qnn_compiled/merges.txt
qnn_compiled/prefill/model.json
qnn_compiled/prefill/model.serialized
qnn_compiled/prefill/model.so
qnn_compiled/special_tokens_map.json
qnn_compiled/token_gen/model.json
qnn_compiled/token_gen/model.serialized
qnn_compiled/token_gen/model.so
qnn_compiled/tokenizer.json
qnn_compiled/tokenizer_config.json
qnn_compiled/vocab.json
quantized/LICENSE
quantized/config.json
quantized/generation_config.json
quantized/model-00001-of-00004.safetensors
quantized/model-00002-of-00004.safetensors
quantized/model-00003-of-00004.safetensors
quantized/model-00004-of-00004.safetensors
quantized/model.safetensors.index.json
quantized/model_info.json
quantized/tokenizer.json
quantized/tokenizer_config.json
quantized_onnx/prefill/model_quantized.onnx ONNX
quantized_onnx/quantization_info.json
quantized_onnx/token_gen/model_quantized.onnx ONNX
quantized_simple/added_tokens.json
quantized_simple/chat_template.jinja
quantized_simple/config.json
quantized_simple/generation_config.json
quantized_simple/merges.txt
quantized_simple/model-00001-of-00003.safetensors
quantized_simple/model-00002-of-00003.safetensors
quantized_simple/model-00003-of-00003.safetensors
quantized_simple/model.safetensors.index.json
quantized_simple/model_info.json
quantized_simple/special_tokens_map.json
quantized_simple/tokenizer.json
quantized_simple/tokenizer_config.json
quantized_simple/vocab.json
special_tokens_map.json
token_gen/model.json
token_gen/model.serialized
token_gen/model.so
tokenizer.json
tokenizer_config.json
vocab.json