返回模型
说明文档
gte-multilingual-reranker-base-onnx-op14-opt-gpu
此模型是 Alibaba-NLP/gte-multilingual-reranker-base 的 ONNX 版本,使用 ONNX opset 14。
模型详情
- 框架: ONNX Runtime
- 作者: 此模型由 Jaro 修改
- ONNX Opset: 14
- 任务: 句子相似度
- 目标设备: GPU
- 已优化: 是
- 原始模型: Alibaba-NLP/gte-multilingual-reranker-base
- 导出日期: 2025-03-27
环境和软件包版本
| 软件包 | 版本 |
|---|---|
| transformers | 4.48.3 |
| optimum | 1.24.0 |
| onnx | 1.17.0 |
| onnxruntime | 1.21.0 |
| torch | 2.5.1 |
| numpy | 2.2.4 |
| huggingface_hub | 0.28.1 |
| python | 3.12.9 |
| system | Darwin 24.3.0 |
应用的优化
| 优化项 | 设置 |
|---|---|
| 图优化级别 | 扩展 |
| 针对 GPU 优化 | 是 |
| 使用 FP16 | 否 |
| 启用 Transformers 特定优化 | 是 |
| 启用 Gelu 融合 | 是 |
| 启用 Layer Norm 融合 | 是 |
| 启用注意力融合 | 是 |
| 启用跳过层归一化融合 | 是 |
| 启用 Gelu 近似 | 是 |
使用方法
from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer
# 加载模型和分词器
model = ORTModelForSequenceClassification.from_pretrained("onnx")
tokenizer = AutoTokenizer.from_pretrained("onnx")
# 准备输入
text = "Your text here"
inputs = tokenizer(text, return_tensors="pt")
# 运行推理
outputs = model(**inputs)
导出过程
此模型使用 Hugging Face 的 Optimum 库导出为 ONNX 格式,opset 版本为 14。 导出时应用了图优化,目标设备为 GPU。
性能
ONNX Runtime 模型通常比原生 PyTorch 模型提供更好的推理速度, 特别是在部署到生产环境时。
ConfidentialMind/gte-multilingual-reranker-base-onnx-op14-opt-gpu
作者 ConfidentialMind
sentence-similarity
↓ 1
♥ 0
创建时间: 2025-03-27 11:48:32+00:00
更新时间: 2025-07-07 07:32:35+00:00
在 Hugging Face 上查看文件 (9)
.gitattributes
README.md
config.json
model.onnx
ONNX
optimization_report.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
upload_info.json