说明文档

multilingual-e5-large — ONNX INT8

intfloat/multilingual-e5-large 的量化 ONNX 版本，用于 CPU 推理。

模型详情

基础模型： intfloat/multilingual-e5-large（5.6亿参数，基于 XLM-RoBERTa）
格式： ONNX 动态 INT8 量化（AVX512 VNNI 优化）
嵌入维度： 1024
最大序列长度： 512 个 token
语言： 100+ 种语言，包括丹麦语、英语、德语、法语等

使用方法

文档需要添加 "passage: " 前缀，搜索查询需要添加 "query: " 前缀（e5 模型规范）。

from optimum.onnxruntime import ORTModelForFeatureExtraction
from transformers import AutoTokenizer
import numpy as np

tokenizer = AutoTokenizer.from_pretrained("thomasbeste/multilingual-e5-large-onnx-int8")
model = ORTModelForFeatureExtraction.from_pretrained("thomasbeste/multilingual-e5-large-onnx-int8")

inputs = tokenizer("passage: Your text here", return_tensors="np", padding=True, truncation=True)
outputs = model(**inputs)
embedding = outputs.last_hidden_state.mean(axis=1)  # 平均池化
embedding = embedding / np.linalg.norm(embedding)    # L2 归一化

许可证

与基础模型相同：MIT

thomasbeste/multilingual-e5-large-onnx-int8

作者 thomasbeste

↓ 415 ♥ 0

创建时间: 2026-03-12 07:08:56+00:00

更新时间: 2026-03-12 07:09:42+00:00

在 Hugging Face 上查看

文件 (8)

.gitattributes

README.md

config.json

model_quantized.onnx ONNX

ort_config.json

special_tokens_map.json

tokenizer.json

tokenizer_config.json