说明文档

meta-llama/Llama-2-7b-chat-hf

简介
- 量化工具：Quark 0.6.0
- OGA 模型构建器：v0.5.1

量化策略

AWQ / 分组大小 128 / 非对称 / UINT4 权重 / FP16 激活值
排除层：无

python3 quantize_quark.py \
      --model_dir "$model" \
      --output_dir "$output_dir" \
      --quant_scheme w_uint4_per_group_asym \
      --num_calib_data 128 \
      --quant_algo awq \
      --dataset pileval_for_awq_benchmark \
      --seq_len 512 \
      --model_export quark_safetensors \
      --data_type float16 \
      --exclude_layers [] \
      --custom_mode awq

OGA 模型构建器

python builder.py \
  -i <量化后的 safetensor 模型目录> \
  -o <oga 模型输出目录> \
  -p int4 \
  -e dml

amd/Llama-2-7b-chat-hf-awq-g128-int4-asym-fp16-onnx-dml

作者 amd

text-generation

↓ 0 ♥ 0

创建时间: 2024-11-30 22:34:03+00:00

更新时间: 2024-12-03 13:56:52+00:00

在 Hugging Face 上查看

文件 (9)

.gitattributes

README.md

genai_config.json

model.onnx ONNX

model.onnx.data

special_tokens_map.json

tokenizer.json

tokenizer.model

tokenizer_config.json