ONNX 模型库
返回模型

说明文档

<h1 align="center">GIST 小型嵌入模型 v0</h1>

GISTEmbed:文本嵌入微调中用于训练负样本的引导式样本内选择

该模型基于 BAAI/bge-small-en-v1.5 进行微调,使用了 MEDI 数据集 并补充了来自 MTEB 分类 训练数据集(不包括亚马逊极性分类任务的数据)挖掘的三元组。

该模型不需要任何指令来生成嵌入。这意味着检索任务的查询可以直接进行编码,无需设计指令。

技术论文:GISTEmbed:文本嵌入微调中用于训练负样本的引导式样本内选择

数据

使用的数据集是 MEDI 和 MTEB 分类训练数据集的组合。第三方数据集可能受其相关许可证的附加条款和条件约束。编译后的数据集的 HuggingFace 数据集版本以及用于训练模型的特定修订版本如下:

该数据集包含一个 task_type 键,可用于仅选择以 mteb_ 为前缀的 MTEB 分类任务。

MEDI 数据集 发表在以下论文中:One Embedder, Any Task: Instruction-Finetuned Text Embeddings

GIST 嵌入模型与基础模型的 MTEB 基准测试结果表明,微调数据集已显著改变了模型,导致某些任务有显著改进,同时某些任务的性能有所下降。

值得注意的是 TRECCOVID 任务的检索性能。微调数据集不包含关于 COVID-19 的显著知识,这可能是导致观察到的性能下降的原因。我们发现了一些证据(如论文中详述),表明微调数据的主题覆盖范围会影响下游性能。

使用方法

该模型可以轻松使用 Sentence Transformers 库加载。

import torch.nn.functional as F
from sentence_transformers import SentenceTransformer

revision = None  # 如果模型已更新,请替换为特定修订版本以确保可重复性。

model = SentenceTransformer("avsolatorio/GIST-small-Embedding-v0", revision=revision)

texts = [
    "REaLTabFormer 模型示意图。左侧模块展示了使用 GPT2 的因果语言模型头处理非关系表格数据模型。相比之下,右侧模块展示了关系数据集的子表如何通过序列到序列(Seq2Seq)模型进行建模。Seq2Seq 模型使用父表中的观测值来条件化子表中观测值的生成。父表上训练好的 GPT2 模型(权重冻结)也被用作 Seq2Seq 模型中的编码器。",
    "预测人类移动性具有重要的实际价值,应用范围从加强灾害风险规划到模拟流行病传播。在本文中,我们提出了 GeoFormer,这是一个从 GPT 架构改编的仅解码器 Transformer 模型,用于预测人类移动性。",
    "随着东南亚经济体继续采用数字技术,政策制定者越来越多地询问如何为新兴劳动力需求做准备。然而,人们对于工人需要哪些技能来适应这些变化知之甚少"
]

# 计算嵌入
embeddings = model.encode(texts, convert_to_tensor=True)

# 计算每对句子之间的余弦相似度
scores = F.cosine_similarity(embeddings.unsqueeze(1), embeddings.unsqueeze(0), dim=-1)

print(scores.cpu().numpy())

训练参数

以下是用于微调模型的训练参数:

Epochs = 40
Warmup ratio = 0.1
Learning rate = 5e-6
Batch size = 16
Checkpoint step = 102000
Contrastive loss temperature = 0.01

评估

该模型使用 MTEB Evaluation 套件进行评估。

引用

如果您在项目或研究中使用 GISTEmbed 或我们发布的数据集,请引用我们的工作。🤗

@article{solatorio2024gistembed,
    title={GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning},
    author={Aivin V. Solatorio},
    journal={arXiv preprint arXiv:2402.16829},
    year={2024},
    URL={https://arxiv.org/abs/2402.16829}
    eprint{2402.16829},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

致谢

本工作得到世界银行知识变革计划(KCP)资助的"利用大型语言模型(AI 和 LLM)在发展经济学文献中探索数据使用"项目(KCP IV)的支持。

本材料中表达的观点、解释和结论完全归作者所有,不一定代表国际复兴开发银行/世界银行及其附属组织的观点,也不代表世界银行执行董事或他们所代表的政府的观点。

avsolatorio/GIST-small-Embedding-v0

作者 avsolatorio

sentence-similarity sentence-transformers
↓ 124.2K ♥ 33

创建时间: 2024-02-03 06:14:01+00:00

更新时间: 2025-04-17 04:22:08+00:00

在 Hugging Face 上查看

文件 (17)

.gitattributes
1_Pooling/config.json
README.md
commit-info.json
config.json
config_sentence_transformers.json
model.safetensors
modules.json
onnx/model.onnx ONNX
onnx/model_quantized.onnx ONNX
onnx/ort_config.json
pytorch_model.bin
sentence_bert_config.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.txt