说明文档

Gemma-7B-Instruct-ONNX

模型概述

本仓库包含 gemma-7b-it 模型的优化版本，旨在使用 ONNX Runtime 加速推理。这些优化专门针对 CPU 和 DirectML 进行了定制。DirectML 是一个高性能、硬件加速的 DirectX 12 机器学习库，可在各种支持的硬件和驱动程序上提供 GPU 加速，包括 AMD、Intel、NVIDIA 和 Qualcomm 的硬件。

ONNX 模型

以下是我们添加的一些优化配置：

int4 DirectML ONNX 模型： 适用于 Windows 上 AMD、Intel 和 NVIDIA GPU 的 ONNX 模型，使用 AWQ 量化为 int4。
int4 CPU 和移动端 ONNX 模型： 使用 RTN 进行 int4 量化的 CPU 和移动端 ONNX 模型。我们上传了两个版本以平衡延迟与精度。Acc=1 针对提高精度，而 Acc=4 针对提高性能。对于移动设备，我们建议使用 acc-level-4 的模型。

使用方法

安装和设置

要在 Windows 上使用 DirectML 运行 Gemma-7B-Instruct-ONNX 模型，请按以下步骤操作：

创建并激活 Conda 环境：

conda create -n onnx python=3.10
conda activate onnx

安装 Git LFS：

winget install -e --id GitHub.GitLFS

安装 Hugging Face CLI：

pip install huggingface-hub[cli]

下载模型：

huggingface-cli download EmbeddedLLM/gemma-7b-it-onnx --include=\"onnx/directml/gemma-7b-it-int4/*\" --local-dir .\gemma-7b-it-onnx

安装必要的 Python 包：

pip install numpy==1.26.4
pip install onnxruntime-directml
pip install --pre onnxruntime-genai-directml

安装 Visual Studio 2015 运行时：

conda install conda-forge::vs2015_runtime

下载示例脚本：

Invoke-WebRequest -Uri \"https://raw.githubusercontent.com/microsoft/onnxruntime-genai/main/examples/python/phi3-qa.py\" -OutFile \"phi3-qa.py\"

运行示例脚本：

python phi3-qa.py -m .\gemma-7b-it-onnx

硬件要求

最低配置：

Windows： 支持 DirectX 12 的 GPU（AMD/Nvidia）
CPU： x86_64 / ARM64

已测试配置：

GPU： AMD Ryzen 8000 系列集成显卡（DirectML）
CPU： AMD Ryzen CPU

模型页面：Gemma

此模型卡对应于 Gemma 模型的 7B 指令版本。您也可以访问 2B 基础模型、7B 基础模型和 2B 指令模型的模型卡。

资源和技术文档：

使用条款：条款

EmbeddedLLM/gemma-7b-it-onnx

作者 EmbeddedLLM

text-generation

↓ 0 ♥ 1

创建时间: 2024-06-18 17:39:54+00:00

更新时间: 2024-06-20 12:52:51+00:00

在 Hugging Face 上查看

文件 (9)

.gitattributes

README.md

onnx/directml/gemma-7b-it-int4/config.json

onnx/directml/gemma-7b-it-int4/genai_config.json

onnx/directml/gemma-7b-it-int4/model.onnx ONNX

onnx/directml/gemma-7b-it-int4/model.onnx.data

onnx/directml/gemma-7b-it-int4/special_tokens_map.json

onnx/directml/gemma-7b-it-int4/tokenizer.json

onnx/directml/gemma-7b-it-int4/tokenizer_config.json