说明文档

potion-base-32M 模型卡片

这个 Model2Vec 模型使用 Tokenlearn 进行预训练。它是从 baai/bge-base-en-v1.5 Sentence Transformer 提炼出来的蒸馏版本。它使用静态嵌入，允许在 GPU 和 CPU 上以数量级更快的速度计算文本嵌入。它专为计算资源有限或需要实时性能的应用场景设计。它使用比 potion-base-8M 模型更大的词汇表，这对于需要更大词汇量的任务可能更有利。

安装

使用 pip 安装 model2vec：

pip install model2vec

使用方法

使用 from_pretrained 方法加载此模型：

from model2vec import StaticModel

# 加载预训练的 Model2Vec 模型
model = StaticModel.from_pretrained("minishlab/potion-base-32M")

# 计算文本嵌入
embeddings = model.encode(["Example sentence"])

工作原理

Model2Vec 创建了一个小型静态模型，在 MTEB 的所有任务上，它以很大优势优于其他静态嵌入模型。此模型使用 Tokenlearn 进行预训练。它通过以下步骤创建：

蒸馏：首先，使用 Model2Vec 从 sentence transformer 模型中提炼出一个模型。
训练数据创建：使用 sentence transformer 模型通过在大型语料库上创建平均输出嵌入来生成训练数据。
训练：使用 Tokenlearn 在训练数据上训练提炼出的模型。
训练后重新正则化：训练后，通过根据词频对 token 进行加权、应用 PCA，最后应用 SIF 加权来重新正则化模型。

结果

此模型的结果如下表所示。所有模型的完整 Model2Vec 结果可以在 Model2Vec 结果页面查看。

Average (All)                               52.46
Average (MTEB)                              51.66
Classification                              65.97
Clustering                                  35.29
PairClassification                          78.17
Reranking                                   50.92
Retrieval                                   33.52
STS                                         74.22
Summarization                               29.78
PEARL                                       55.37
WordSim                                     55.15

其他资源

库作者

Model2Vec 由 Minish Lab 团队开发，团队成员包括 Stephan Tulkens 和 Thomas van Dongen。

引用

如果您在工作中使用此模型，请引用 Model2Vec 仓库。

@software{minishlab2024model2vec,
  authors = {Stephan Tulkens and Thomas van Dongen},
  title = {Model2Vec: The Fastest State-of-the-Art Static Embeddings in the World},
  year = {2024},
  url = {https://github.com/MinishLab/model2vec}
}

minishlab/potion-base-32M

作者 minishlab

model2vec

↓ 151.7K ♥ 24

创建时间: 2025-01-22 17:10:47+00:00

更新时间: 2025-01-29 10:59:27+00:00

在 Hugging Face 上查看

文件 (10)

.gitattributes

README.md

config.json

model.safetensors

modules.json

onnx/model.onnx ONNX

special_tokens_map.json

tokenizer.json

tokenizer_config.json

vocab.txt