返回模型

说明文档

ABEJA Qwen 2.5 7B 日语版 - QNN 优化

本仓库包含针对高通神经网络（QNN）部署优化的 ABEJA Qwen 2.5 7B 日语模型。

模型详情

基础模型: abeja/Qwen2.5-7B-Japanese
架构: Qwen2ForCausalLM
参数量: ~7.6B
语言: 日语（主要）、英语（次要）
量化: 4-bit NF4
目标硬件: Snapdragon 8cx Gen 2+ (SM8350)

可用格式

1. 量化 PyTorch 模型

路径: quantized_simple/
格式: 4-bit NF4 量化
大小: ~4.5GB（从 ~15GB 压缩）
用途: 使用 transformers 直接推理

2. ONNX 模型

路径: onnx/
模型:
- prefill/model.onnx - 上下文预填充
- token_gen/model.onnx - 词元生成
用途: 跨平台推理

3. 量化 ONNX 模型

路径: quantized_onnx/
格式: 动态量化（INT8）
用途: 优化的 ONNX 推理

4. QNN 编译模型

路径: qnn_compiled/
格式: 高通神经网络格式
目标: Snapdragon 设备
用途: 原生 ARM64 部署

使用方法

量化 PyTorch 模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(\"marcusmi4n/abeja-qwen2.5-7b-japanese-qnn\", subfolder=\"quantized_simple\")
tokenizer = AutoTokenizer.from_pretrained(\"marcusmi4n/abeja-qwen2.5-7b-japanese-qnn\", subfolder=\"quantized_simple\")

# Japanese text generation
inputs = tokenizer(\"こんにちは、私は\", return_tensors=\"pt\")
outputs = model.generate(**inputs, max_length=100, do_sample=True)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

ONNX 推理

import onnxruntime as ort

# Load ONNX model
session = ort.InferenceSession(\"marcusmi4n/abeja-qwen2.5-7b-japanese-qnn/onnx/prefill/model.onnx\")
# Run inference...

QNN 部署

# Deploy to Snapdragon device
adb push marcusmi4n/abeja-qwen2.5-7b-japanese-qnn/qnn_compiled/ /data/local/tmp/qnn_model/
# Use QNN runtime for inference

性能

量化: 体积减少 75%
速度: 推理速度提升 2-3 倍
内存: ~4.5GB 内存占用
词元/秒: 在 Snapdragon 8cx Gen 2+ 上可达 8-15 词元/秒

硬件兼容性

✅ Snapdragon 8cx Gen 2+
✅ Snapdragon 8cx Gen 3
✅ Snapdragon 8 Gen 1+
✅ Windows on ARM 设备
✅ Microsoft Surface Pro X
✅ Dell Latitude 7420

文件结构

marcusmi4n/abeja-qwen2.5-7b-japanese-qnn/
├── quantized_simple/          # 4-bit 量化 PyTorch 模型
│   ├── model.safetensors
│   ├── config.json
│   ├── tokenizer.json
│   └── model_info.json
├── onnx/                      # ONNX 模型
│   ├── prefill/model.onnx
│   └── token_gen/model.onnx
├── quantized_onnx/            # 量化 ONNX 模型
│   ├── prefill/model_quantized.onnx
│   └── token_gen/model_quantized.onnx
├── qnn_compiled/              # QNN 编译模型
│   ├── prefill/
│   ├── token_gen/
│   └── deployment_info.json
└── README.md                  # 本文件

许可证

Apache 2.0 - 与基础 ABEJA Qwen 2.5 模型相同

引用

@misc{abeja-qwen25-qnn,
  title={ABEJA Qwen 2.5 7B Japanese - QNN Optimized},
  author={QNN Conversion Pipeline},
  year={2025},
  url={https://huggingface.co/marcusmi4n/abeja-qwen2.5-7b-japanese-qnn}
}

基础模型引用

请引用原始 ABEJA Qwen 2.5 论文：

@article{abeja-qwen2.5,
  title={ABEJA Qwen 2.5: Japanese Language Model},
  author={ABEJA Inc.},
  journal={arXiv preprint},
  year={2024}
}

marcusmi4n/abeja-qwen2.5-7b-japanese-qnn

作者 marcusmi4n

text-generation transformers

↓ 0 ♥ 1

创建时间: 2025-09-01 12:51:06+00:00

更新时间: 2025-09-02 15:24:05+00:00

在 Hugging Face 上查看

文件 (57)

.gitattributes

README.md

deployment_info.json

merges.txt

onnx/model_info.json

onnx/prefill/model.onnx ONNX

onnx/token_gen/model.onnx ONNX

prefill/model.json

prefill/model.serialized

prefill/model.so

qnn_compiled/deployment_info.json

qnn_compiled/merges.txt

qnn_compiled/prefill/model.json

qnn_compiled/prefill/model.serialized

qnn_compiled/prefill/model.so

qnn_compiled/special_tokens_map.json

qnn_compiled/token_gen/model.json

qnn_compiled/token_gen/model.serialized

qnn_compiled/token_gen/model.so

qnn_compiled/tokenizer.json

qnn_compiled/tokenizer_config.json

qnn_compiled/vocab.json

quantized/LICENSE

quantized/config.json

quantized/generation_config.json

quantized/model-00001-of-00004.safetensors

quantized/model-00002-of-00004.safetensors

quantized/model-00003-of-00004.safetensors

quantized/model-00004-of-00004.safetensors

quantized/model.safetensors.index.json

quantized/model_info.json

quantized/tokenizer.json

quantized/tokenizer_config.json

quantized_onnx/prefill/model_quantized.onnx ONNX

quantized_onnx/quantization_info.json

quantized_onnx/token_gen/model_quantized.onnx ONNX

quantized_simple/added_tokens.json

quantized_simple/chat_template.jinja

quantized_simple/config.json

quantized_simple/generation_config.json

quantized_simple/merges.txt

quantized_simple/model-00001-of-00003.safetensors

quantized_simple/model-00002-of-00003.safetensors

quantized_simple/model-00003-of-00003.safetensors

quantized_simple/model.safetensors.index.json

quantized_simple/model_info.json

quantized_simple/special_tokens_map.json

quantized_simple/tokenizer.json

quantized_simple/tokenizer_config.json

quantized_simple/vocab.json

special_tokens_map.json

token_gen/model.json

token_gen/model.serialized

token_gen/model.so

tokenizer.json

tokenizer_config.json

vocab.json