返回模型
说明文档
EmbeddedLLM/Phi-3-mini-4k-instruct-062024-int4-onnx-directml
模型概要
该模型是 microsoft/Phi-3-mini-4k-instruct (June 2024) 的 ONNX 优化版本,旨在使用 ONNX Runtime(CPU 和 DirectML)在各种硬件上提供加速推理。 DirectML 是一个高性能、硬件加速的 DirectX 12 机器学习库,为广泛支持的硬件和驱动程序提供 GPU 加速,包括 AMD、Intel、NVIDIA 和 Qualcomm GPU。
ONNX 模型
以下是我们添加的一些优化配置:
- int4 DirectML 的 ONNX 模型: 适用于 Windows 上 AMD、Intel 和 NVIDIA GPU 的 ONNX 模型,使用 AWQ 量化为 int4。
硬件要求
最低配置:
- Windows: 支持 DirectX 12 的 GPU (AMD/Nvidia)
- CPU: x86_64 / ARM64 测试配置:
- GPU: AMD Ryzen 8000 系列 iGPU (DirectML)
- CPU: AMD Ryzen CPU
模型描述
- 开发方: Microsoft
- 模型类型: ONNX
- 编程语言: Python, C, C++
- 许可证: Apache License Version 2.0
- 模型描述: 该模型是 Phi-3-mini-4k-instruct-062024 的转换版本,用于 ONNX Runtime 推理,针对 DirectML 进行了优化。
性能指标
<!-- These are the evaluation metrics being used, ideally with a description of why. -->
DirectML
我们在 AMD Ryzen 9 7940HS /w Radeon 78 上测量了 DirectML 的性能
| Prompt Length | Generation Length | Average Throughput (tps) |
|---|---|---|
| 128 | 128 | - |
| 128 | 256 | - |
| 128 | 512 | - |
| 128 | 1024 | - |
| 256 | 128 | - |
| 256 | 256 | - |
| 256 | 512 | - |
| 256 | 1024 | - |
| 512 | 128 | - |
| 512 | 256 | - |
| 512 | 512 | - |
| 512 | 1024 | - |
| 1024 | 128 | - |
| 1024 | 256 | - |
| 1024 | 512 | - |
| 1024 | 1024 | - |
EmbeddedLLM/Phi-3-mini-4k-instruct-062024-int4-onnx-directml
作者 EmbeddedLLM
text-generation
transformers
↓ 0
♥ 0
创建时间: 2024-07-17 08:28:18+00:00
更新时间: 2024-08-06 05:59:51+00:00
在 Hugging Face 上查看文件 (15)
.gitattributes
LICENSE
README.md
added_tokens.json
config.json
configuration_phi3.py
genai_config.json
generation_config.json
model.onnx
ONNX
model.onnx.data
modeling_phi3.py
special_tokens_map.json
tokenizer.json
tokenizer.model
tokenizer_config.json