ONNX 模型库
返回模型

说明文档

potion-base-8M 模型卡片

<div align="center"> <img width="35%" alt="Model2Vec logo" src="https://raw.githubusercontent.com/MinishLab/model2vec/main/assets/images/logo_v2.png"> </div>

Model2Vec 模型使用 Tokenlearn 进行预训练。它是 baai/bge-base-en-v1.5 Sentence Transformer 的蒸馏版本。它使用静态嵌入,允许在 GPU 和 CPU 上以数量级的速度更快地计算文本嵌入。它专为计算资源有限或实时性能至关重要的应用而设计。

安装

使用 pip 安装 model2vec:

pip install model2vec

使用方法

使用 from_pretrained 方法加载此模型:

from model2vec import StaticModel

# 加载预训练的 Model2Vec 模型
model = StaticModel.from_pretrained("minishlab/potion-base-8M")

# 计算文本嵌入
embeddings = model.encode(["Example sentence"])

工作原理

Model2vec 创建了一个小型静态模型,在 MTEB 的所有任务上,它以较大优势超越了其他静态嵌入模型。此模型使用 Tokenlearn 进行预训练。它通过以下步骤创建:

  • 蒸馏:首先,使用 Model2Vec 从 sentence transformer 模型中蒸馏出一个模型。
  • 训练数据创建:使用 sentence transformer 模型通过在大型语料库上创建平均输出嵌入来创建训练数据。
  • 训练:使用 Tokenlearn 在训练数据上训练蒸馏后的模型。
  • 训练后正则化:训练后,通过根据词频对 token 进行加权、应用 PCA,最后应用 SIF 加权 来重新正则化模型。

此模型的结果可以在 Model2Vec 结果页面 上找到。

其他资源

库作者

Model2Vec 由 Minish Lab 团队开发,团队成员包括 Stephan TulkensThomas van Dongen

引用

如果您在工作中使用此模型,请引用 Model2Vec 仓库

@software{minishlab2024model2vec,
  authors = {Stephan Tulkens, Thomas van Dongen},
  title = {Model2Vec: Turn any Sentence Transformer into a Small Fast Model},
  year = {2024},
  url = {https://github.com/MinishLab/model2vec},
}

minishlab/potion-base-8M

作者 minishlab

model2vec
↓ 1.2M ♥ 76

创建时间: 2024-10-29 09:35:47+00:00

更新时间: 2025-09-09 09:30:00+00:00

在 Hugging Face 上查看

文件 (10)

.gitattributes
README.md
config.json
model.safetensors
modules.json
onnx/model.onnx ONNX
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.txt