返回模型
说明文档
potion-base-32M 模型卡片
<div align="center"> <img width="35%" alt="Model2Vec logo" src="https://raw.githubusercontent.com/MinishLab/model2vec/main/assets/images/logo_v2.png"> </div>
这个 Model2Vec 模型使用 Tokenlearn 进行预训练。它是从 baai/bge-base-en-v1.5 Sentence Transformer 提炼出来的蒸馏版本。它使用静态嵌入,允许在 GPU 和 CPU 上以数量级更快的速度计算文本嵌入。它专为计算资源有限或需要实时性能的应用场景设计。它使用比 potion-base-8M 模型更大的词汇表,这对于需要更大词汇量的任务可能更有利。
安装
使用 pip 安装 model2vec:
pip install model2vec
使用方法
使用 from_pretrained 方法加载此模型:
from model2vec import StaticModel
# 加载预训练的 Model2Vec 模型
model = StaticModel.from_pretrained("minishlab/potion-base-32M")
# 计算文本嵌入
embeddings = model.encode(["Example sentence"])
工作原理
Model2Vec 创建了一个小型静态模型,在 MTEB 的所有任务上,它以很大优势优于其他静态嵌入模型。此模型使用 Tokenlearn 进行预训练。它通过以下步骤创建:
- 蒸馏:首先,使用 Model2Vec 从 sentence transformer 模型中提炼出一个模型。
- 训练数据创建:使用 sentence transformer 模型通过在大型语料库上创建平均输出嵌入来生成训练数据。
- 训练:使用 Tokenlearn 在训练数据上训练提炼出的模型。
- 训练后重新正则化:训练后,通过根据词频对 token 进行加权、应用 PCA,最后应用 SIF 加权 来重新正则化模型。
结果
此模型的结果如下表所示。所有模型的完整 Model2Vec 结果可以在 Model2Vec 结果页面 查看。
Average (All) 52.46
Average (MTEB) 51.66
Classification 65.97
Clustering 35.29
PairClassification 78.17
Reranking 50.92
Retrieval 33.52
STS 74.22
Summarization 29.78
PEARL 55.37
WordSim 55.15
其他资源
库作者
Model2Vec 由 Minish Lab 团队开发,团队成员包括 Stephan Tulkens 和 Thomas van Dongen。
引用
如果您在工作中使用此模型,请引用 Model2Vec 仓库。
@software{minishlab2024model2vec,
authors = {Stephan Tulkens and Thomas van Dongen},
title = {Model2Vec: The Fastest State-of-the-Art Static Embeddings in the World},
year = {2024},
url = {https://github.com/MinishLab/model2vec}
}
minishlab/potion-base-32M
作者 minishlab
model2vec
↓ 151.7K
♥ 24
创建时间: 2025-01-22 17:10:47+00:00
更新时间: 2025-01-29 10:59:27+00:00
在 Hugging Face 上查看文件 (10)
.gitattributes
README.md
config.json
model.safetensors
modules.json
onnx/model.onnx
ONNX
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.txt