返回模型
说明文档
DeepSeek-R1-Distill-Llama-8B-awq-asym-uint4-g128-lmhead-onnx-cpu
-
简介
该模型是通过应用 Quark 并使用 Pile 数据集的校准样本创建的。 -
量化策略
- 量化层:所有线性层
- 权重:uint4 非对称分组量化,group_size=128
-
快速开始
- 下载并安装 Quark
- 在示例文件夹中使用以下命令行运行量化脚本:
export MODEL_DIR = [本地模型检查点文件夹] 或 DeepSeek-R1-Distill-Llama-8B # 单 GPU python quantize_quark.py --model_dir $MODEL_DIR \ --output_dir output_dir $MODEL_NAME-awq-asym-uint4-g128-lmhead \ --quant_scheme w_uint4_per_group_asym \ --num_calib_data 128 \ --quant_algo awq \ --dataset pileval_for_awq_benchmark \ --seq_len 512 \ --model_export hf_format \ --data_type bfloat16 \ --exclude_layers # cpu python quantize_quark.py --model_dir $MODEL_DIR \ --output_dir output_dir $MODEL_NAME-awq-asym-uint4-g128-lmhead \ --quant_scheme w_uint4_per_group_asym \ --num_calib_data 128 \ --quant_algo awq \ --dataset pileval_for_awq_benchmark \ --seq_len 512 \ --model_export hf_format \ --data_type bfloat16 \ --exclude_layers \ --device cpu
部署
Quark 有自己的导出格式 quark_safetensors,与 autoAWQ 导出格式兼容。
评估
Quark 目前使用困惑度(PPL)作为量化前后精度损失的评估指标。具体的 PPL 算法可参考 quantize_quark.py。 量化评估结果是在伪量化模式下进行的,可能与实际量化推理精度略有差异。这些结果仅供参考。
评估分数
<table> <tr> <td><strong>基准测试</strong> </td> <td><strong>deepseek-ai/DeepSeek-R1-Distill-Llama-8B</strong> </td> <td><strong>amd/DeepSeek-R1-Distill-Llama-8B-awq-asym-uint4-g128-lmhead-onnx-cpu (本模型)</strong> </td> </tr> <tr> <td>Perplexity-wikitext2 </td> <td>13.1432 </td> <td> </td> </tr>
</table>
许可证
修改版权所有 (c) 2024 Advanced Micro Devices,Inc. 保留所有权利。
根据 Apache 许可证 2.0 版("许可证")授权; 除非遵守许可证,否则您不得使用本文件。 您可以在以下位置获取许可证副本:
http://www.apache.org/licenses/LICENSE-2.0
除非适用法律要求或书面同意,否则根据许可证分发的软件 是按"原样"分发的, 没有任何明示或暗示的担保或条件。 请参阅许可证以了解管理权限和 限制的具体语言。
amd/DeepSeek-R1-Distill-Llama-8B-awq-asym-uint4-g128-lmhead-onnx-cpu
作者 amd
text-generation
↓ 0
♥ 0
创建时间: 2025-01-30 15:18:15+00:00
更新时间: 2025-01-30 15:36:37+00:00
在 Hugging Face 上查看文件 (8)
.gitattributes
README.md
genai_config.json
model.onnx
ONNX
model.onnx.data
special_tokens_map.json
tokenizer.json
tokenizer_config.json