ONNX 模型库
返回模型

说明文档

openchat-3.6-8b-20240522 ONNX

模型概述

本仓库包含 openchat/openchat-3.6-8b-20240522 的 ONNX 优化版本,旨在使用 ONNX Runtime 加速推理。这些优化专门针对 CPU 和 DirectML 进行了定制。DirectML 是一个高性能、硬件加速的 DirectX 12 机器学习库,可在广泛支持的硬件和驱动程序上提供 GPU 加速,包括 AMD、Intel、NVIDIA 和 Qualcomm 的硬件。

优化配置

提供以下优化配置:

  • int4 DirectML 的 ONNX 模型: 针对Windows上的 AMD、Intel 和 NVIDIA GPU 进行了优化,使用 AWQ 量化至 int4。
  • int4 CPU 和移动端的 ONNX 模型: 使用 RTN 进行 int4 量化的 CPU 和移动端 ONNX 模型。上传了两个版本以平衡延迟与精度。Acc=1 针对提高精度,Acc=4 针对提高性能。对于移动设备,我们建议使用 acc-level-4 的模型。

使用方法

安装与设置

要在 Windows 上使用 DirectML 运行 EmbeddedLLM/openchat-3.6-8b-20240522-onnx 模型,请按照以下步骤操作:

  1. 创建并激活 Conda 环境:
conda create -n onnx python=3.10
conda activate onnx
  1. 安装 Git LFS:
winget install -e --id GitHub.GitLFS
  1. 安装 Hugging Face CLI:
pip install huggingface-hub[cli]
  1. 下载模型:
huggingface-cli download EmbeddedLLM/openchat-3.6-8b-20240522-onnx --include=\"onnx/directml/*\" --local-dir .\openchat-3.6-8b-20240522-onnx
  1. 安装必要的 Python 包:
pip install numpy==1.26.4
pip install onnxruntime-directml
pip install --pre onnxruntime-genai-directml
  1. 安装 Visual Studio 2015 运行时:
conda install conda-forge::vs2015_runtime
  1. 下载示例脚本:
Invoke-WebRequest -Uri \"https://raw.githubusercontent.com/microsoft/onnxruntime-genai/main/examples/python/phi3-qa.py\" -OutFile \"phi3-qa.py\"
  1. 运行示例脚本:
python phi3-qa.py -m .\openchat-3.6-8b-20240522-onnx

硬件要求

最低配置:

  • Windows: 支持 DirectX 12 的 GPU(AMD/Nvidia)
  • CPU: x86_64 / ARM64

已测试配置:

  • GPU: AMD Ryzen 8000 系列核显(DirectML)
  • CPU: AMD Ryzen CPU

引用

@article{wang2023openchat,
  title={OpenChat: Advancing Open-source Language Models with Mixed-Quality Data},
  author={Wang, Guan and Cheng, Sijie and Zhan, Xianyuan and Li, Xiangang and Song, Sen and Liu, Yang},
  journal={arXiv preprint arXiv:2309.11235},
  year={2023}
}

EmbeddedLLM/openchat-3.6-8b-20240522-onnx

作者 EmbeddedLLM

text-generation
↓ 0 ♥ 1

创建时间: 2024-06-17 11:00:10+00:00

更新时间: 2024-06-17 16:21:56+00:00

在 Hugging Face 上查看

文件 (23)

.gitattributes
README.md
onnx/cpu_and_mobile/cpu-int4-rtn-block-32-acc-level-4/config.json
onnx/cpu_and_mobile/cpu-int4-rtn-block-32-acc-level-4/genai_config.json
onnx/cpu_and_mobile/cpu-int4-rtn-block-32-acc-level-4/model.onnx ONNX
onnx/cpu_and_mobile/cpu-int4-rtn-block-32-acc-level-4/model.onnx.data
onnx/cpu_and_mobile/cpu-int4-rtn-block-32-acc-level-4/special_tokens_map.json
onnx/cpu_and_mobile/cpu-int4-rtn-block-32-acc-level-4/tokenizer.json
onnx/cpu_and_mobile/cpu-int4-rtn-block-32-acc-level-4/tokenizer_config.json
onnx/cpu_and_mobile/cpu-int4-rtn-block-32/config.json
onnx/cpu_and_mobile/cpu-int4-rtn-block-32/genai_config.json
onnx/cpu_and_mobile/cpu-int4-rtn-block-32/model.onnx ONNX
onnx/cpu_and_mobile/cpu-int4-rtn-block-32/model.onnx.data
onnx/cpu_and_mobile/cpu-int4-rtn-block-32/special_tokens_map.json
onnx/cpu_and_mobile/cpu-int4-rtn-block-32/tokenizer.json
onnx/cpu_and_mobile/cpu-int4-rtn-block-32/tokenizer_config.json
onnx/directml/openchat-3.6-8b-20240522-int4/config.json
onnx/directml/openchat-3.6-8b-20240522-int4/genai_config.json
onnx/directml/openchat-3.6-8b-20240522-int4/model.onnx ONNX
onnx/directml/openchat-3.6-8b-20240522-int4/model.onnx.data
onnx/directml/openchat-3.6-8b-20240522-int4/special_tokens_map.json
onnx/directml/openchat-3.6-8b-20240522-int4/tokenizer.json
onnx/directml/openchat-3.6-8b-20240522-int4/tokenizer_config.json