返回模型
说明文档
ABEJA Qwen 2.5 7B 日语版 - QNN 优化
本仓库包含针对高通神经网络(QNN)部署优化的 ABEJA Qwen 2.5 7B 日语模型。
模型详情
- 基础模型: abeja/Qwen2.5-7B-Japanese
- 架构: Qwen2ForCausalLM
- 参数量: ~7.6B
- 语言: 日语(主要)、英语(次要)
- 量化: 4-bit NF4
- 目标硬件: Snapdragon 8cx Gen 2+ (SM8350)
可用格式
1. 量化 PyTorch 模型
- 路径:
quantized_simple/ - 格式: 4-bit NF4 量化
- 大小: ~4.5GB(从 ~15GB 压缩)
- 用途: 使用 transformers 直接推理
2. ONNX 模型
- 路径:
onnx/ - 模型:
prefill/model.onnx- 上下文预填充token_gen/model.onnx- 词元生成
- 用途: 跨平台推理
3. 量化 ONNX 模型
- 路径:
quantized_onnx/ - 格式: 动态量化(INT8)
- 用途: 优化的 ONNX 推理
4. QNN 编译模型
- 路径:
qnn_compiled/ - 格式: 高通神经网络格式
- 目标: Snapdragon 设备
- 用途: 原生 ARM64 部署
使用方法
量化 PyTorch 模型
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(\"marcusmi4n/abeja-qwen2.5-7b-japanese-qnn\", subfolder=\"quantized_simple\")
tokenizer = AutoTokenizer.from_pretrained(\"marcusmi4n/abeja-qwen2.5-7b-japanese-qnn\", subfolder=\"quantized_simple\")
# Japanese text generation
inputs = tokenizer(\"こんにちは、私は\", return_tensors=\"pt\")
outputs = model.generate(**inputs, max_length=100, do_sample=True)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
ONNX 推理
import onnxruntime as ort
# Load ONNX model
session = ort.InferenceSession(\"marcusmi4n/abeja-qwen2.5-7b-japanese-qnn/onnx/prefill/model.onnx\")
# Run inference...
QNN 部署
# Deploy to Snapdragon device
adb push marcusmi4n/abeja-qwen2.5-7b-japanese-qnn/qnn_compiled/ /data/local/tmp/qnn_model/
# Use QNN runtime for inference
性能
- 量化: 体积减少 75%
- 速度: 推理速度提升 2-3 倍
- 内存: ~4.5GB 内存占用
- 词元/秒: 在 Snapdragon 8cx Gen 2+ 上可达 8-15 词元/秒
硬件兼容性
- ✅ Snapdragon 8cx Gen 2+
- ✅ Snapdragon 8cx Gen 3
- ✅ Snapdragon 8 Gen 1+
- ✅ Windows on ARM 设备
- ✅ Microsoft Surface Pro X
- ✅ Dell Latitude 7420
文件结构
marcusmi4n/abeja-qwen2.5-7b-japanese-qnn/
├── quantized_simple/ # 4-bit 量化 PyTorch 模型
│ ├── model.safetensors
│ ├── config.json
│ ├── tokenizer.json
│ └── model_info.json
├── onnx/ # ONNX 模型
│ ├── prefill/model.onnx
│ └── token_gen/model.onnx
├── quantized_onnx/ # 量化 ONNX 模型
│ ├── prefill/model_quantized.onnx
│ └── token_gen/model_quantized.onnx
├── qnn_compiled/ # QNN 编译模型
│ ├── prefill/
│ ├── token_gen/
│ └── deployment_info.json
└── README.md # 本文件
许可证
Apache 2.0 - 与基础 ABEJA Qwen 2.5 模型相同
引用
@misc{abeja-qwen25-qnn,
title={ABEJA Qwen 2.5 7B Japanese - QNN Optimized},
author={QNN Conversion Pipeline},
year={2025},
url={https://huggingface.co/marcusmi4n/abeja-qwen2.5-7b-japanese-qnn}
}
基础模型引用
请引用原始 ABEJA Qwen 2.5 论文:
@article{abeja-qwen2.5,
title={ABEJA Qwen 2.5: Japanese Language Model},
author={ABEJA Inc.},
journal={arXiv preprint},
year={2024}
}
marcusmi4n/abeja-qwen2.5-7b-japanese-qnn
作者 marcusmi4n
text-generation
transformers
↓ 0
♥ 1
创建时间: 2025-09-01 12:51:06+00:00
更新时间: 2025-09-02 15:24:05+00:00
在 Hugging Face 上查看文件 (57)
.gitattributes
README.md
deployment_info.json
merges.txt
onnx/model_info.json
onnx/prefill/model.onnx
ONNX
onnx/token_gen/model.onnx
ONNX
prefill/model.json
prefill/model.serialized
prefill/model.so
qnn_compiled/deployment_info.json
qnn_compiled/merges.txt
qnn_compiled/prefill/model.json
qnn_compiled/prefill/model.serialized
qnn_compiled/prefill/model.so
qnn_compiled/special_tokens_map.json
qnn_compiled/token_gen/model.json
qnn_compiled/token_gen/model.serialized
qnn_compiled/token_gen/model.so
qnn_compiled/tokenizer.json
qnn_compiled/tokenizer_config.json
qnn_compiled/vocab.json
quantized/LICENSE
quantized/config.json
quantized/generation_config.json
quantized/model-00001-of-00004.safetensors
quantized/model-00002-of-00004.safetensors
quantized/model-00003-of-00004.safetensors
quantized/model-00004-of-00004.safetensors
quantized/model.safetensors.index.json
quantized/model_info.json
quantized/tokenizer.json
quantized/tokenizer_config.json
quantized_onnx/prefill/model_quantized.onnx
ONNX
quantized_onnx/quantization_info.json
quantized_onnx/token_gen/model_quantized.onnx
ONNX
quantized_simple/added_tokens.json
quantized_simple/chat_template.jinja
quantized_simple/config.json
quantized_simple/generation_config.json
quantized_simple/merges.txt
quantized_simple/model-00001-of-00003.safetensors
quantized_simple/model-00002-of-00003.safetensors
quantized_simple/model-00003-of-00003.safetensors
quantized_simple/model.safetensors.index.json
quantized_simple/model_info.json
quantized_simple/special_tokens_map.json
quantized_simple/tokenizer.json
quantized_simple/tokenizer_config.json
quantized_simple/vocab.json
special_tokens_map.json
token_gen/model.json
token_gen/model.serialized
token_gen/model.so
tokenizer.json
tokenizer_config.json
vocab.json