返回模型
说明文档
meta-llama/Llama-2-7b-chat-hf
-
简介
- 量化工具:Quark 0.6.0
- OGA 模型构建器:v0.5.1
-
量化策略
- AWQ / 分组大小 128 / 非对称 / UINT4 权重 / FP16 激活值
- 排除层:无
python3 quantize_quark.py \ --model_dir "$model" \ --output_dir "$output_dir" \ --quant_scheme w_uint4_per_group_asym \ --num_calib_data 128 \ --quant_algo awq \ --dataset pileval_for_awq_benchmark \ --seq_len 512 \ --model_export quark_safetensors \ --data_type float16 \ --exclude_layers [] \ --custom_mode awq -
OGA 模型构建器
python builder.py \ -i <量化后的 safetensor 模型目录> \ -o <oga 模型输出目录> \ -p int4 \ -e dml
amd/Llama-2-7b-chat-hf-awq-g128-int4-asym-fp16-onnx-dml
作者 amd
text-generation
↓ 0
♥ 0
创建时间: 2024-11-30 22:34:03+00:00
更新时间: 2024-12-03 13:56:52+00:00
在 Hugging Face 上查看文件 (9)
.gitattributes
README.md
genai_config.json
model.onnx
ONNX
model.onnx.data
special_tokens_map.json
tokenizer.json
tokenizer.model
tokenizer_config.json