说明文档
<h1 align="center">GIST 小型嵌入模型 v0</h1>
GISTEmbed:文本嵌入微调中用于训练负样本的引导式样本内选择
该模型基于 BAAI/bge-small-en-v1.5 进行微调,使用了 MEDI 数据集 并补充了来自 MTEB 分类 训练数据集(不包括亚马逊极性分类任务的数据)挖掘的三元组。
该模型不需要任何指令来生成嵌入。这意味着检索任务的查询可以直接进行编码,无需设计指令。
技术论文:GISTEmbed:文本嵌入微调中用于训练负样本的引导式样本内选择
数据
使用的数据集是 MEDI 和 MTEB 分类训练数据集的组合。第三方数据集可能受其相关许可证的附加条款和条件约束。编译后的数据集的 HuggingFace 数据集版本以及用于训练模型的特定修订版本如下:
- 数据集:avsolatorio/medi-data-mteb_avs_triplets
- 修订版本:238a0499b6e6b690cc64ea56fde8461daa8341bb
该数据集包含一个 task_type 键,可用于仅选择以 mteb_ 为前缀的 MTEB 分类任务。
MEDI 数据集 发表在以下论文中:One Embedder, Any Task: Instruction-Finetuned Text Embeddings。
GIST 嵌入模型与基础模型的 MTEB 基准测试结果表明,微调数据集已显著改变了模型,导致某些任务有显著改进,同时某些任务的性能有所下降。
值得注意的是 TRECCOVID 任务的检索性能。微调数据集不包含关于 COVID-19 的显著知识,这可能是导致观察到的性能下降的原因。我们发现了一些证据(如论文中详述),表明微调数据的主题覆盖范围会影响下游性能。
使用方法
该模型可以轻松使用 Sentence Transformers 库加载。
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer
revision = None # 如果模型已更新,请替换为特定修订版本以确保可重复性。
model = SentenceTransformer("avsolatorio/GIST-small-Embedding-v0", revision=revision)
texts = [
"REaLTabFormer 模型示意图。左侧模块展示了使用 GPT2 的因果语言模型头处理非关系表格数据模型。相比之下,右侧模块展示了关系数据集的子表如何通过序列到序列(Seq2Seq)模型进行建模。Seq2Seq 模型使用父表中的观测值来条件化子表中观测值的生成。父表上训练好的 GPT2 模型(权重冻结)也被用作 Seq2Seq 模型中的编码器。",
"预测人类移动性具有重要的实际价值,应用范围从加强灾害风险规划到模拟流行病传播。在本文中,我们提出了 GeoFormer,这是一个从 GPT 架构改编的仅解码器 Transformer 模型,用于预测人类移动性。",
"随着东南亚经济体继续采用数字技术,政策制定者越来越多地询问如何为新兴劳动力需求做准备。然而,人们对于工人需要哪些技能来适应这些变化知之甚少"
]
# 计算嵌入
embeddings = model.encode(texts, convert_to_tensor=True)
# 计算每对句子之间的余弦相似度
scores = F.cosine_similarity(embeddings.unsqueeze(1), embeddings.unsqueeze(0), dim=-1)
print(scores.cpu().numpy())
训练参数
以下是用于微调模型的训练参数:
Epochs = 40
Warmup ratio = 0.1
Learning rate = 5e-6
Batch size = 16
Checkpoint step = 102000
Contrastive loss temperature = 0.01
评估
该模型使用 MTEB Evaluation 套件进行评估。
引用
如果您在项目或研究中使用 GISTEmbed 或我们发布的数据集,请引用我们的工作。🤗
@article{solatorio2024gistembed,
title={GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning},
author={Aivin V. Solatorio},
journal={arXiv preprint arXiv:2402.16829},
year={2024},
URL={https://arxiv.org/abs/2402.16829}
eprint{2402.16829},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
致谢
本工作得到世界银行知识变革计划(KCP)资助的"利用大型语言模型(AI 和 LLM)在发展经济学文献中探索数据使用"项目(KCP IV)的支持。
本材料中表达的观点、解释和结论完全归作者所有,不一定代表国际复兴开发银行/世界银行及其附属组织的观点,也不代表世界银行执行董事或他们所代表的政府的观点。
avsolatorio/GIST-small-Embedding-v0
作者 avsolatorio
创建时间: 2024-02-03 06:14:01+00:00
更新时间: 2025-04-17 04:22:08+00:00
在 Hugging Face 上查看