说明文档

potion-base-8M 模型卡片

此 Model2Vec 模型使用 Tokenlearn 进行预训练。它是 baai/bge-base-en-v1.5 Sentence Transformer 的蒸馏版本。它使用静态嵌入，允许在 GPU 和 CPU 上以数量级的速度更快地计算文本嵌入。它专为计算资源有限或实时性能至关重要的应用而设计。

安装

使用 pip 安装 model2vec：

pip install model2vec

使用方法

使用 from_pretrained 方法加载此模型：

from model2vec import StaticModel

# 加载预训练的 Model2Vec 模型
model = StaticModel.from_pretrained("minishlab/potion-base-8M")

# 计算文本嵌入
embeddings = model.encode(["Example sentence"])

工作原理

Model2vec 创建了一个小型静态模型，在 MTEB 的所有任务上，它以较大优势超越了其他静态嵌入模型。此模型使用 Tokenlearn 进行预训练。它通过以下步骤创建：

蒸馏：首先，使用 Model2Vec 从 sentence transformer 模型中蒸馏出一个模型。
训练数据创建：使用 sentence transformer 模型通过在大型语料库上创建平均输出嵌入来创建训练数据。
训练：使用 Tokenlearn 在训练数据上训练蒸馏后的模型。
训练后正则化：训练后，通过根据词频对 token 进行加权、应用 PCA，最后应用 SIF 加权来重新正则化模型。

此模型的结果可以在 Model2Vec 结果页面上找到。

其他资源

库作者

Model2Vec 由 Minish Lab 团队开发，团队成员包括 Stephan Tulkens 和 Thomas van Dongen。

引用

如果您在工作中使用此模型，请引用 Model2Vec 仓库。

@software{minishlab2024model2vec,
  authors = {Stephan Tulkens, Thomas van Dongen},
  title = {Model2Vec: Turn any Sentence Transformer into a Small Fast Model},
  year = {2024},
  url = {https://github.com/MinishLab/model2vec},
}

minishlab/potion-base-8M

作者 minishlab

model2vec

↓ 1.2M ♥ 76

创建时间: 2024-10-29 09:35:47+00:00

更新时间: 2025-09-09 09:30:00+00:00

在 Hugging Face 上查看

文件 (10)

.gitattributes

README.md

config.json

model.safetensors

modules.json

onnx/model.onnx ONNX

special_tokens_map.json

tokenizer.json

tokenizer_config.json

vocab.txt