ONNX 模型库
返回模型

说明文档

gte-multilingual-reranker-base-onnx-op14-opt-gpu

此模型是 Alibaba-NLP/gte-multilingual-reranker-base 的 ONNX 版本,使用 ONNX opset 14。

模型详情

环境和软件包版本

软件包 版本
transformers 4.48.3
optimum 1.24.0
onnx 1.17.0
onnxruntime 1.21.0
torch 2.5.1
numpy 2.2.4
huggingface_hub 0.28.1
python 3.12.9
system Darwin 24.3.0

应用的优化

优化项 设置
图优化级别 扩展
针对 GPU 优化
使用 FP16
启用 Transformers 特定优化
启用 Gelu 融合
启用 Layer Norm 融合
启用注意力融合
启用跳过层归一化融合
启用 Gelu 近似

使用方法

from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer

# 加载模型和分词器
model = ORTModelForSequenceClassification.from_pretrained("onnx")
tokenizer = AutoTokenizer.from_pretrained("onnx")

# 准备输入
text = "Your text here"
inputs = tokenizer(text, return_tensors="pt")

# 运行推理
outputs = model(**inputs)

导出过程

此模型使用 Hugging Face 的 Optimum 库导出为 ONNX 格式,opset 版本为 14。 导出时应用了图优化,目标设备为 GPU。

性能

ONNX Runtime 模型通常比原生 PyTorch 模型提供更好的推理速度, 特别是在部署到生产环境时。

ConfidentialMind/gte-multilingual-reranker-base-onnx-op14-opt-gpu

作者 ConfidentialMind

sentence-similarity
↓ 1 ♥ 0

创建时间: 2025-03-27 11:48:32+00:00

更新时间: 2025-07-07 07:32:35+00:00

在 Hugging Face 上查看

文件 (9)

.gitattributes
README.md
config.json
model.onnx ONNX
optimization_report.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
upload_info.json