返回模型
说明文档
Mistral-7B-Instruct-v0.3 ONNX
模型概述
本模型是 Mistral-7B-Instruct-v0.3 的 ONNX 优化版本,旨在使用 ONNX Runtime(CPU 和 DirectML)在各种硬件上提供加速推理。 DirectML 是一个高性能、硬件加速的 DirectX 12 机器学习库,为广泛的硬件和驱动程序提供 GPU 加速,包括 AMD、Intel、NVIDIA 和 Qualcomm GPU。
ONNX 模型
以下是我们添加的一些优化配置:
- int4 DirectML ONNX 模型: 适用于 Windows 上 AMD、Intel 和 NVIDIA GPU 的 ONNX 模型,使用 AWQ 量化为 int4。
- int4 CPU 和移动端 ONNX 模型: 通过 RTN 进行 int4 量化的 CPU 和移动端 ONNX 模型。我们上传了两个版本以平衡延迟与准确性。Acc=1 针对更高的准确性,而 Acc=4 则针对更好的性能。对于移动设备,我们建议使用 acc-level-4 的模型。
使用方法
安装与设置
要在 Windows 上使用 DirectML 运行 Mistral-7B-Instruct-v0.3 ONNX 模型,请按照以下步骤操作:
- 创建并激活 Conda 环境:
conda create -n onnx python=3.10
conda activate onnx
- 安装 Git LFS:
winget install -e --id GitHub.GitLFS
- 安装 Hugging Face CLI:
pip install huggingface-hub[cli]
- 下载模型:
huggingface-cli download EmbeddedLLM/mistral-7b-instruct-v0.3-onnx --include=\"onnx/directml/*\" --local-dir .\mistral-7b-instruct-v0.3
- 安装必要的 Python 包:
pip install numpy==1.26.4
pip install onnxruntime-directml
pip install --pre onnxruntime-genai-directml
- 安装 Visual Studio 2015 运行时:
conda install conda-forge::vs2015_runtime
- 下载示例脚本:
Invoke-WebRequest -Uri \"https://raw.githubusercontent.com/microsoft/onnxruntime-genai/main/examples/python/phi3-qa.py\" -OutFile \"phi3-qa.py\"
- 运行示例脚本:
python phi3-qa.py -m .\mistral-7b-instruct-v0.3
硬件要求
最低配置:
- Windows: 支持 DirectX 12 的 GPU(AMD/Nvidia)
- CPU: x86_64 / ARM64
已测试配置:
- GPU: AMD Ryzen 8000 系列 iGPU(DirectML)
- CPU: AMD Ryzen CPU
模型描述
- 开发者: Mistral AI
- 模型类型: ONNX
- 编程语言: Python, C, C++
- 许可证: Apache License Version 2.0
- 模型描述: 本模型是 Mistral-7B-Instruct-v0.3 的 ONNX Runtime 推理转换版本,针对 CPU 和 DirectML 进行了优化。
EmbeddedLLM/mistral-7b-instruct-v0.3-onnx
作者 EmbeddedLLM
text-generation
↓ 0
♥ 2
创建时间: 2024-06-17 04:08:19+00:00
更新时间: 2024-06-17 15:32:14+00:00
在 Hugging Face 上查看文件 (26)
.gitattributes
README.md
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32-acc-level-4/config.json
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32-acc-level-4/genai_config.json
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32-acc-level-4/model.onnx
ONNX
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32-acc-level-4/model.onnx.data
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32-acc-level-4/special_tokens_map.json
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32-acc-level-4/tokenizer.json
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32-acc-level-4/tokenizer.model
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32-acc-level-4/tokenizer_config.json
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32/config.json
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32/genai_config.json
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32/model.onnx
ONNX
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32/model.onnx.data
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32/special_tokens_map.json
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32/tokenizer.json
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32/tokenizer.model
onnx/cpu_and_mobile/mistral-7b-instruct-v0.3-cpu-int4-rtn-block-32/tokenizer_config.json
onnx/directml/mistralai_Mistral-7B-Instruct-v0.3-int4/config.json
onnx/directml/mistralai_Mistral-7B-Instruct-v0.3-int4/genai_config.json
onnx/directml/mistralai_Mistral-7B-Instruct-v0.3-int4/model.onnx
ONNX
onnx/directml/mistralai_Mistral-7B-Instruct-v0.3-int4/model.onnx.data
onnx/directml/mistralai_Mistral-7B-Instruct-v0.3-int4/special_tokens_map.json
onnx/directml/mistralai_Mistral-7B-Instruct-v0.3-int4/tokenizer.json
onnx/directml/mistralai_Mistral-7B-Instruct-v0.3-int4/tokenizer.model
onnx/directml/mistralai_Mistral-7B-Instruct-v0.3-int4/tokenizer_config.json