说明文档

gte-multilingual-base

gte-multilingual-base 模型是 GTE（通用文本嵌入）模型家族的最新成员，具有以下主要特性：

高性能：在多语言检索任务和多任务表示模型评估中，与同等规模的模型相比，达到了最先进（SOTA）的结果。
训练架构：采用仅编码器的 Transformer 架构进行训练，模型体积更小。与以往基于仅解码器大语言模型架构的模型（如 gte-qwen2-1.5b-instruct）不同，该模型推理时的硬件要求更低，推理速度提升 10 倍。
长上下文：支持最长 8192 个 Token 的文本长度。
多语言能力：支持超过 70 种语言。
弹性稠密嵌入：支持弹性输出稠密表示，同时保持下游任务的有效性，显著降低存储成本并提高执行效率。
稀疏向量：除稠密表示外，还能生成稀疏向量。

作者 Maxthemacaque

sentence-similarity sentence-transformers

↓ 0 ♥ 1

创建时间: 2024-12-22 10:14:40+00:00

更新时间: 2024-12-22 10:19:11+00:00

.gitattributes

README.md

model.onnx ONNX

tokenizer/special_tokens_map.json

tokenizer/tokenizer.json

tokenizer/tokenizer_config.json