说明文档

DeepSeek-R1-Distill-Qwen-7B-awq-asym-uint4-g128-lmhead-onnx-dml

简介
本模型通过使用来自 Pile 数据集的校准样本应用 Quark 创建而成。
量化策略
- 量化层: 所有线性层
- 权重: uint4 非对称分组量化, group_size=128
快速开始

下载并安装 Quark

使用以下命令行在示例文件夹中运行量化脚本:

export MODEL_DIR = [本地模型检查点文件夹] 或 DeepSeek-R1-Distill-Qwen-7B
# 单 GPU
python quantize_quark.py --model_dir $MODEL_DIR \
                        --output_dir output_dir $MODEL_NAME-awq-asym-uint4-g128-lmhead \
                        --quant_scheme w_uint4_per_group_asym \
                        --num_calib_data 128 \
                        --quant_algo awq \
                        --dataset pileval_for_awq_benchmark \
                        --seq_len 512 \
                        --model_export hf_format \
                        --data_type bfloat16 \
                        --exclude_layers
# cpu
python quantize_quark.py --model_dir $MODEL_DIR \
                        --output_dir output_dir $MODEL_NAME-awq-asym-uint4-g128-lmhead \
                        --quant_scheme w_uint4_per_group_asym \
                        --num_calib_data 128 \
                        --quant_algo awq \
                        --dataset pileval_for_awq_benchmark \
                        --seq_len 512 \
                        --model_export hf_format \
                        --data_type bfloat16 \
                        --exclude_layers \
                        --device cpu

部署

Quark 拥有自己的导出格式 quark_safetensors,与 autoAWQ 导出格式兼容。

评估

Quark 目前使用困惑度(PPL)作为量化前后精度损失的评估指标。具体的 PPL 算法可参考 quantize_quark.py。量化评估结果是在伪量化模式下进行的,可能与实际量化推理精度略有差异。这些结果仅供参考。

评估分数

<table> <tr> <td><strong>基准测试</strong> </td> <td><strong>deepseek-ai/DeepSeek-R1-Distill-Qwen-7B</strong> </td> <td><strong>amd/DeepSeek-R1-Distill-Qwen-7B-awq-asym-uint4-g128-lmhead-onnx-dml (本模型)</strong> </td> </tr> <tr> <td>Perplexity-wikitext2 </td> <td>26.0455 </td> <td> 28.0579 (使用 CPU 模型测量) </td> </tr>

</table>

许可证

根据 Apache 许可证 2.0 版("许可证")授权; 除非遵守许可证,否则您不得使用本文件。您可以在以下位置获取许可证副本:

http://www.apache.org/licenses/LICENSE-2.0

除非适用法律要求或书面同意,否则根据许可证分发的软件是按"原样"分发的, 没有任何明示或暗示的担保或条件。请参阅许可证以了解管理权限和限制的具体语言。

amd/DeepSeek-R1-Distill-Qwen-7B-awq-asym-uint4-g128-lmhead-onnx-dml

作者 amd

text-generation

↓ 0 ♥ 0

创建时间: 2025-01-30 15:32:19+00:00

更新时间: 2025-01-30 16:12:55+00:00

在 Hugging Face 上查看

文件 (8)

.gitattributes

README.md

genai_config.json

model.onnx ONNX

model.onnx.data

special_tokens_map.json

tokenizer.json

tokenizer_config.json

说明文档

DeepSeek-R1-Distill-Qwen-7B-awq-asym-uint4-g128-lmhead-onnx-dml

简介

量化策略

快速开始

部署

评估

评估分数

许可证

amd/DeepSeek-R1-Distill-Qwen-7B-awq-asym-uint4-g128-lmhead-onnx-dml

文件 (8)