ONNX 模型库
返回模型

说明文档

meta-llama/Llama-2-7b-chat-hf

  • 简介

    • 量化工具:Quark 0.6.0
    • OGA 模型构建器:v0.5.1
  • 量化策略

    • AWQ / 分组大小 128 / 非对称 / UINT4 权重 / FP16 激活值
    • 排除层:无
    python3 quantize_quark.py \
          --model_dir "$model" \
          --output_dir "$output_dir" \
          --quant_scheme w_uint4_per_group_asym \
          --num_calib_data 128 \
          --quant_algo awq \
          --dataset pileval_for_awq_benchmark \
          --seq_len 512 \
          --model_export quark_safetensors \
          --data_type float16 \
          --exclude_layers [] \
          --custom_mode awq
    
  • OGA 模型构建器

    python builder.py \
      -i <量化后的 safetensor 模型目录> \
      -o <oga 模型输出目录> \
      -p int4 \
      -e dml
    

amd/Llama-2-7b-chat-hf-awq-g128-int4-asym-fp16-onnx-dml

作者 amd

text-generation
↓ 0 ♥ 0

创建时间: 2024-11-30 22:34:03+00:00

更新时间: 2024-12-03 13:56:52+00:00

在 Hugging Face 上查看

文件 (9)

.gitattributes
README.md
genai_config.json
model.onnx ONNX
model.onnx.data
special_tokens_map.json
tokenizer.json
tokenizer.model
tokenizer_config.json