返回模型
说明文档
Phi-3.5-mini-instruct ONNX(量化版)
这是微软 Phi-3.5-mini-instruct 模型的 ONNX 转换和 INT8 量化版本,针对边缘设备和高通骁龙硬件的部署进行了优化。
模型描述
- 原始模型: microsoft/Phi-3.5-mini-instruct
- 模型大小: ~15GB(原始)→ 针对边缘部署优化
- 量化: 动态 INT8 量化
- 框架: ONNX Runtime
- 优化目标: 高通骁龙设备(X Elite、8 Gen 3、7c+ Gen 3)
特性
✅ ONNX 格式,跨平台兼容
✅ INT8 量化,减少内存占用
✅ 针对高通 AI Hub 部署优化
✅ 包含分词器和配置文件
✅ 开箱即用的边缘部署
使用方法
使用 ONNX Runtime
import onnxruntime as ort
from transformers import AutoTokenizer
import numpy as np
# 加载分词器
tokenizer = AutoTokenizer.from_pretrained("your-username/phi-3.5-mini-instruct-onnx")
# 创建 ONNX Runtime 会话
providers = ['CPUExecutionProvider'] # 或 ['CUDAExecutionProvider'] 用于 GPU
session = ort.InferenceSession("model.onnx", providers=providers)
# 准备输入
text = "Hello, how can I help you today?"
inputs = tokenizer(text, return_tensors="np")
# 运行推理
outputs = session.run(None, {"input_ids": inputs["input_ids"]})
使用 Optimum
from optimum.onnxruntime import ORTModelForCausalLM
from transformers import AutoTokenizer
model = ORTModelForCausalLM.from_pretrained("your-username/phi-3.5-mini-instruct-onnx")
tokenizer = AutoTokenizer.from_pretrained("your-username/phi-3.5-mini-instruct-onnx")
inputs = tokenizer("Hello, how are you?", return_tensors="pt")
outputs = model.generate(**inputs)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
高通 AI Hub 部署
该模型针对高通设备的 AI Hub 部署进行了优化:
- Hexagon NPU 加速: 利用高通的神经网络处理单元
- Adreno GPU 支持: 可利用 GPU 进行加速
- 能效优化: 针对移动和边缘设备优化
模型文件
model.onnx- 主 ONNX 模型文件model.onnx_data- 模型权重(外部数据格式)tokenizer.json- 快速分词器config.json- 模型配置special_tokens_map.json- 特殊标记映射tokenizer_config.json- 分词器配置
性能
- 推理速度: CPU 上比 PyTorch 快约 2 倍
- 内存占用: INT8 量化减少约 50%
- 精度: 轻微下降(大多数基准测试 <1%)
限制
- 模型需要正确的输入格式,包括注意力掩码和位置 ID
- 多轮对话需要缓存管理
- 序列长度限制为 2048 个标记以获得最佳性能
引用
如果您使用此模型,请引用:
@article{phi3,
title={Phi-3 Technical Report},
author={Microsoft},
year={2024}
}
许可证
本模型采用 MIT 许可证发布,与原始 Phi-3.5 模型相同。
致谢
- 感谢微软提供原始 Phi-3.5-mini-instruct 模型
- 感谢 ONNX Runtime 团队提供的优化工具
- 感谢高通提供的 AI Hub 平台支持
marcusmi4n/phi-3.5-mini-instruct-onnx
作者 marcusmi4n
text-generation
onnxruntime
↓ 0
♥ 0
创建时间: 2025-09-05 13:16:13+00:00
更新时间: 2025-09-05 13:19:05+00:00
在 Hugging Face 上查看文件 (11)
.gitattributes
README.md
chat_template.jinja
config.json
configuration_phi3.py
generation_config.json
model.onnx
ONNX
model.onnx_data
special_tokens_map.json
tokenizer.json
tokenizer_config.json