返回模型

说明文档

Phi-3.5-mini-instruct ONNX（量化版）

这是微软 Phi-3.5-mini-instruct 模型的 ONNX 转换和 INT8 量化版本，针对边缘设备和高通骁龙硬件的部署进行了优化。

模型描述

原始模型: microsoft/Phi-3.5-mini-instruct
模型大小: ~15GB（原始）→ 针对边缘部署优化
量化: 动态 INT8 量化
框架: ONNX Runtime
优化目标: 高通骁龙设备（X Elite、8 Gen 3、7c+ Gen 3）

特性

✅ ONNX 格式，跨平台兼容
✅ INT8 量化，减少内存占用
✅ 针对高通 AI Hub 部署优化
✅ 包含分词器和配置文件
✅ 开箱即用的边缘部署

使用方法

使用 ONNX Runtime

import onnxruntime as ort
from transformers import AutoTokenizer
import numpy as np

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained("your-username/phi-3.5-mini-instruct-onnx")

# 创建 ONNX Runtime 会话
providers = ['CPUExecutionProvider']  # 或 ['CUDAExecutionProvider'] 用于 GPU
session = ort.InferenceSession("model.onnx", providers=providers)

# 准备输入
text = "Hello, how can I help you today?"
inputs = tokenizer(text, return_tensors="np")

# 运行推理
outputs = session.run(None, {"input_ids": inputs["input_ids"]})

使用 Optimum

from optimum.onnxruntime import ORTModelForCausalLM
from transformers import AutoTokenizer

model = ORTModelForCausalLM.from_pretrained("your-username/phi-3.5-mini-instruct-onnx")
tokenizer = AutoTokenizer.from_pretrained("your-username/phi-3.5-mini-instruct-onnx")

inputs = tokenizer("Hello, how are you?", return_tensors="pt")
outputs = model.generate(**inputs)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

高通 AI Hub 部署

该模型针对高通设备的 AI Hub 部署进行了优化：

Hexagon NPU 加速: 利用高通的神经网络处理单元
Adreno GPU 支持: 可利用 GPU 进行加速
能效优化: 针对移动和边缘设备优化

模型文件

model.onnx - 主 ONNX 模型文件
model.onnx_data - 模型权重（外部数据格式）
tokenizer.json - 快速分词器
config.json - 模型配置
special_tokens_map.json - 特殊标记映射
tokenizer_config.json - 分词器配置

性能

推理速度: CPU 上比 PyTorch 快约 2 倍
内存占用: INT8 量化减少约 50%
精度: 轻微下降（大多数基准测试 <1%）

限制

模型需要正确的输入格式，包括注意力掩码和位置 ID
多轮对话需要缓存管理
序列长度限制为 2048 个标记以获得最佳性能

引用

如果您使用此模型，请引用：

@article{phi3,
  title={Phi-3 Technical Report},
  author={Microsoft},
  year={2024}
}

许可证

本模型采用 MIT 许可证发布，与原始 Phi-3.5 模型相同。

致谢

感谢微软提供原始 Phi-3.5-mini-instruct 模型
感谢 ONNX Runtime 团队提供的优化工具
感谢高通提供的 AI Hub 平台支持

marcusmi4n/phi-3.5-mini-instruct-onnx

作者 marcusmi4n

text-generation onnxruntime

↓ 0 ♥ 0

创建时间: 2025-09-05 13:16:13+00:00

更新时间: 2025-09-05 13:19:05+00:00

在 Hugging Face 上查看

文件 (11)

.gitattributes

README.md

chat_template.jinja

config.json

configuration_phi3.py

generation_config.json

model.onnx ONNX

model.onnx_data

special_tokens_map.json

tokenizer.json

tokenizer_config.json