说明文档
potion-multilingual-128M 模型卡片
<div align="center"> <img width="35%" alt="Model2Vec logo" src="https://raw.githubusercontent.com/MinishLab/model2vec/main/assets/images/logo_v2.png"> </div>
此 Model2Vec 模型使用 Tokenlearn 在 C4 数据集 的所有语言上进行了预训练。它是 BAAI/bge-m3 Sentence Transformer 的蒸馏版本。它使用静态嵌入,使得文本嵌入可以在 GPU 和 CPU 上以数量级的速度更快地计算。它专为计算资源有限或实时性能至关重要的应用而设计。
potion-multilingual-128M 是一种多语言模型,在 101 种语言上训练,能够为任何语言的任何文本生成嵌入。该模型生成 256 维嵌入,由于嵌入是静态的(预计算的),因此具有理论上无限的处理长度。
安装
使用 pip 安装 model2vec:
pip install model2vec
使用方法
使用 Model2Vec
Model2Vec 库 是运行 Model2Vec 模型最快、最轻量的方式。
使用 from_pretrained 方法加载此模型:
from model2vec import StaticModel
# 加载预训练的 Model2Vec 模型
model = StaticModel.from_pretrained("minishlab/potion-multilingual-128M")
# 计算文本嵌入
embeddings = model.encode(["示例句子"])
结果
在 MMTEB 上的结果:
| 模型 | 平均 (任务) | 平均 (任务类型) | 比特挖掘 | 分类 | 聚类 | 指令检索 | 多分类 | 配对分类 | 排名 | 检索 | STS |
|---|---|---|---|---|---|---|---|---|---|---|---|
| potion-multilingual-128M | 47.31 | 40.40 | 40.72 | 52.36 | 38.80 | −2.08 | 15.95 | 71.39 | 47.39 | 37.86 | 61.23 |
工作原理
Model2vec 创建了一个小型静态模型,在 MTEB 的所有任务上,它以较大优势优于其他静态嵌入模型。此模型使用 Tokenlearn 进行预训练。创建过程如下:
- 蒸馏:首先,使用 Model2Vec 将模型从句子转换器模型蒸馏出来。
- 训练数据创建:使用句子转换器模型通过在大型语料库上创建平均输出嵌入来创建训练数据。在本例中,使用了来自 101 种不同语言的 200 万个 C4 数据集句子,采用与语言规模成比例的温度平滑采样。
- 训练:使用 Tokenlearn 在训练数据上训练蒸馏模型。
此模型的结果可在 Model2Vec 结果页面 查看。
其他资源
库作者
Model2Vec 由 Minish Lab 团队开发,团队成员包括 Stephan Tulkens 和 Thomas van Dongen。
引用
如果在你的研究中使用 Model2Vec,请引用以下内容:
@article{minishlab2024model2vec,
author = {Tulkens, Stephan and {van Dongen}, Thomas},
title = {Model2Vec: Fast State-of-the-Art Static Embeddings},
year = {2024},
url = {https://github.com/MinishLab/model2vec}
}
minishlab/potion-multilingual-128M
作者 minishlab
创建时间: 2025-05-22 14:52:59+00:00
更新时间: 2025-05-31 17:08:57+00:00
在 Hugging Face 上查看