说明文档

EmbeddedLLM/Phi-3-mini-4k-instruct-062024-int4-onnx-directml

模型概要

该模型是 microsoft/Phi-3-mini-4k-instruct (June 2024) 的 ONNX 优化版本，旨在使用 ONNX Runtime（CPU 和 DirectML）在各种硬件上提供加速推理。 DirectML 是一个高性能、硬件加速的 DirectX 12 机器学习库，为广泛支持的硬件和驱动程序提供 GPU 加速，包括 AMD、Intel、NVIDIA 和 Qualcomm GPU。

ONNX 模型

以下是我们添加的一些优化配置：

int4 DirectML 的 ONNX 模型： 适用于 Windows 上 AMD、Intel 和 NVIDIA GPU 的 ONNX 模型，使用 AWQ 量化为 int4。

硬件要求

最低配置：

Windows： 支持 DirectX 12 的 GPU (AMD/Nvidia)
CPU： x86_64 / ARM64 测试配置：
GPU： AMD Ryzen 8000 系列 iGPU (DirectML)
CPU： AMD Ryzen CPU

模型描述

开发方： Microsoft
模型类型： ONNX
编程语言： Python, C, C++
许可证： Apache License Version 2.0
模型描述： 该模型是 Phi-3-mini-4k-instruct-062024 的转换版本，用于 ONNX Runtime 推理，针对 DirectML 进行了优化。

性能指标

DirectML

我们在 AMD Ryzen 9 7940HS /w Radeon 78 上测量了 DirectML 的性能

Prompt Length	Generation Length	Average Throughput (tps)
128	128	-
128	256	-
128	512	-
128	1024	-
256	128	-
256	256	-
256	512	-
256	1024	-
512	128	-
512	256	-
512	512	-
512	1024	-
1024	128	-
1024	256	-
1024	512	-
1024	1024	-

EmbeddedLLM/Phi-3-mini-4k-instruct-062024-int4-onnx-directml

作者 EmbeddedLLM

text-generation transformers

↓ 0 ♥ 0

创建时间: 2024-07-17 08:28:18+00:00

更新时间: 2024-08-06 05:59:51+00:00

在 Hugging Face 上查看

文件 (15)

.gitattributes

LICENSE

README.md

added_tokens.json

config.json

configuration_phi3.py

genai_config.json

generation_config.json

model.onnx ONNX

model.onnx.data

modeling_phi3.py

special_tokens_map.json

tokenizer.json

tokenizer.model

tokenizer_config.json