返回模型

说明文档

<h1 align="center">GIST 小型嵌入模型 v0</h1>

GISTEmbed：文本嵌入微调中用于训练负样本的引导式样本内选择

该模型基于 BAAI/bge-small-en-v1.5 进行微调，使用了 MEDI 数据集并补充了来自 MTEB 分类训练数据集（不包括亚马逊极性分类任务的数据）挖掘的三元组。

该模型不需要任何指令来生成嵌入。这意味着检索任务的查询可以直接进行编码，无需设计指令。

技术论文：GISTEmbed：文本嵌入微调中用于训练负样本的引导式样本内选择

数据

使用的数据集是 MEDI 和 MTEB 分类训练数据集的组合。第三方数据集可能受其相关许可证的附加条款和条件约束。编译后的数据集的 HuggingFace 数据集版本以及用于训练模型的特定修订版本如下：

数据集：avsolatorio/medi-data-mteb_avs_triplets
修订版本：238a0499b6e6b690cc64ea56fde8461daa8341bb

该数据集包含一个 task_type 键，可用于仅选择以 mteb_ 为前缀的 MTEB 分类任务。

MEDI 数据集 发表在以下论文中：One Embedder, Any Task: Instruction-Finetuned Text Embeddings。

GIST 嵌入模型与基础模型的 MTEB 基准测试结果表明，微调数据集已显著改变了模型，导致某些任务有显著改进，同时某些任务的性能有所下降。

值得注意的是 TRECCOVID 任务的检索性能。微调数据集不包含关于 COVID-19 的显著知识，这可能是导致观察到的性能下降的原因。我们发现了一些证据（如论文中详述），表明微调数据的主题覆盖范围会影响下游性能。

使用方法

该模型可以轻松使用 Sentence Transformers 库加载。

import torch.nn.functional as F
from sentence_transformers import SentenceTransformer

revision = None  # 如果模型已更新，请替换为特定修订版本以确保可重复性。

model = SentenceTransformer("avsolatorio/GIST-small-Embedding-v0", revision=revision)

texts = [
    "REaLTabFormer 模型示意图。左侧模块展示了使用 GPT2 的因果语言模型头处理非关系表格数据模型。相比之下，右侧模块展示了关系数据集的子表如何通过序列到序列（Seq2Seq）模型进行建模。Seq2Seq 模型使用父表中的观测值来条件化子表中观测值的生成。父表上训练好的 GPT2 模型（权重冻结）也被用作 Seq2Seq 模型中的编码器。",
    "预测人类移动性具有重要的实际价值，应用范围从加强灾害风险规划到模拟流行病传播。在本文中，我们提出了 GeoFormer，这是一个从 GPT 架构改编的仅解码器 Transformer 模型，用于预测人类移动性。",
    "随着东南亚经济体继续采用数字技术，政策制定者越来越多地询问如何为新兴劳动力需求做准备。然而，人们对于工人需要哪些技能来适应这些变化知之甚少"
]

# 计算嵌入
embeddings = model.encode(texts, convert_to_tensor=True)

# 计算每对句子之间的余弦相似度
scores = F.cosine_similarity(embeddings.unsqueeze(1), embeddings.unsqueeze(0), dim=-1)

print(scores.cpu().numpy())

训练参数

以下是用于微调模型的训练参数：

Epochs = 40
Warmup ratio = 0.1
Learning rate = 5e-6
Batch size = 16
Checkpoint step = 102000
Contrastive loss temperature = 0.01

评估

该模型使用 MTEB Evaluation 套件进行评估。

引用

如果您在项目或研究中使用 GISTEmbed 或我们发布的数据集，请引用我们的工作。🤗

@article{solatorio2024gistembed,
    title={GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning},
    author={Aivin V. Solatorio},
    journal={arXiv preprint arXiv:2402.16829},
    year={2024},
    URL={https://arxiv.org/abs/2402.16829}
    eprint{2402.16829},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

致谢

本工作得到世界银行知识变革计划（KCP）资助的"利用大型语言模型（AI 和 LLM）在发展经济学文献中探索数据使用"项目（KCP IV）的支持。

本材料中表达的观点、解释和结论完全归作者所有，不一定代表国际复兴开发银行/世界银行及其附属组织的观点，也不代表世界银行执行董事或他们所代表的政府的观点。

avsolatorio/GIST-small-Embedding-v0

作者 avsolatorio

sentence-similarity sentence-transformers

↓ 124.2K ♥ 33

创建时间: 2024-02-03 06:14:01+00:00

更新时间: 2025-04-17 04:22:08+00:00

在 Hugging Face 上查看

文件 (17)

.gitattributes

1_Pooling/config.json

README.md

commit-info.json

config.json

config_sentence_transformers.json

model.safetensors

modules.json

onnx/model.onnx ONNX

onnx/model_quantized.onnx ONNX

onnx/ort_config.json

pytorch_model.bin

sentence_bert_config.json

special_tokens_map.json

tokenizer.json

tokenizer_config.json

vocab.txt