ONNX 模型库
返回模型

说明文档

Phi-3.5-mini-instruct ONNX(量化版)

这是微软 Phi-3.5-mini-instruct 模型的 ONNX 转换和 INT8 量化版本,针对边缘设备和高通骁龙硬件的部署进行了优化。

模型描述

  • 原始模型: microsoft/Phi-3.5-mini-instruct
  • 模型大小: ~15GB(原始)→ 针对边缘部署优化
  • 量化: 动态 INT8 量化
  • 框架: ONNX Runtime
  • 优化目标: 高通骁龙设备(X Elite、8 Gen 3、7c+ Gen 3)

特性

✅ ONNX 格式,跨平台兼容
✅ INT8 量化,减少内存占用
✅ 针对高通 AI Hub 部署优化
✅ 包含分词器和配置文件
✅ 开箱即用的边缘部署

使用方法

使用 ONNX Runtime

import onnxruntime as ort
from transformers import AutoTokenizer
import numpy as np

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained("your-username/phi-3.5-mini-instruct-onnx")

# 创建 ONNX Runtime 会话
providers = ['CPUExecutionProvider']  # 或 ['CUDAExecutionProvider'] 用于 GPU
session = ort.InferenceSession("model.onnx", providers=providers)

# 准备输入
text = "Hello, how can I help you today?"
inputs = tokenizer(text, return_tensors="np")

# 运行推理
outputs = session.run(None, {"input_ids": inputs["input_ids"]})

使用 Optimum

from optimum.onnxruntime import ORTModelForCausalLM
from transformers import AutoTokenizer

model = ORTModelForCausalLM.from_pretrained("your-username/phi-3.5-mini-instruct-onnx")
tokenizer = AutoTokenizer.from_pretrained("your-username/phi-3.5-mini-instruct-onnx")

inputs = tokenizer("Hello, how are you?", return_tensors="pt")
outputs = model.generate(**inputs)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

高通 AI Hub 部署

该模型针对高通设备的 AI Hub 部署进行了优化:

  1. Hexagon NPU 加速: 利用高通的神经网络处理单元
  2. Adreno GPU 支持: 可利用 GPU 进行加速
  3. 能效优化: 针对移动和边缘设备优化

模型文件

  • model.onnx - 主 ONNX 模型文件
  • model.onnx_data - 模型权重(外部数据格式)
  • tokenizer.json - 快速分词器
  • config.json - 模型配置
  • special_tokens_map.json - 特殊标记映射
  • tokenizer_config.json - 分词器配置

性能

  • 推理速度: CPU 上比 PyTorch 快约 2 倍
  • 内存占用: INT8 量化减少约 50%
  • 精度: 轻微下降(大多数基准测试 <1%)

限制

  • 模型需要正确的输入格式,包括注意力掩码和位置 ID
  • 多轮对话需要缓存管理
  • 序列长度限制为 2048 个标记以获得最佳性能

引用

如果您使用此模型,请引用:

@article{phi3,
  title={Phi-3 Technical Report},
  author={Microsoft},
  year={2024}
}

许可证

本模型采用 MIT 许可证发布,与原始 Phi-3.5 模型相同。

致谢

  • 感谢微软提供原始 Phi-3.5-mini-instruct 模型
  • 感谢 ONNX Runtime 团队提供的优化工具
  • 感谢高通提供的 AI Hub 平台支持

marcusmi4n/phi-3.5-mini-instruct-onnx

作者 marcusmi4n

text-generation onnxruntime
↓ 0 ♥ 0

创建时间: 2025-09-05 13:16:13+00:00

更新时间: 2025-09-05 13:19:05+00:00

在 Hugging Face 上查看

文件 (11)

.gitattributes
README.md
chat_template.jinja
config.json
configuration_phi3.py
generation_config.json
model.onnx ONNX
model.onnx_data
special_tokens_map.json
tokenizer.json
tokenizer_config.json