说明文档

模型卡片：vti-bge-embedding-v6

vti-bge-embedding-v6 是一个嵌入模型，基于 Vietnamese_Embedding_v2 模型 (https://huggingface.co/BAAI/bge-reranker-v2-m3) 进行微调，旨在增强特定领域（VTI 环境）中越南语的检索能力。

原始模型在约 1,100,000 个查询、正样本文档和负样本文档的三元组上进行了越南语训练。
该模型的最大序列长度为 2304（查询为 256，文档为 2048）进行训练。
新模型在一家科技公司中使用约 6,000 个查询、正样本文档和负样本文档的三元组进行了微调。

模型详情

模型描述

模型类型： Sentence Transformer
基础模型： BAAI/bge-m3
最大序列长度： 2048 tokens
输出维度： 1024 维
相似度函数： 点积相似度
语言： 越南语
许可证： Apache 2.0

使用方法

from sentence_transformers import SentenceTransformer
import torch
model = SentenceTransformer("hieptran318204/vti-bge-embedding-v6")
model.max_seq_length = 2048
sentences_1 = ["Trí tuệ nhân tạo là gì", "Lợi ích của giấc ngủ"]
sentences_2 = ["Trí tuệ nhân tạo là công nghệ giúp máy móc suy nghĩ và học hỏi như con người. Nó hoạt động bằng cách thu thập dữ liệu, nhận diện mẫu và đưa ra quyết định.", 
               "Giấc ngủ giúp cơ thể và não bộ nghỉ ngơi, hồi phục năng lượng và cải thiện trí nhớ. Ngủ đủ giấc giúp tinh thần tỉnh táo và làm việc hiệu quả hơn."]
query_embedding = model.encode(sentences_1)
doc_embeddings = model.encode(sentences_2)
similarity = query_embedding @ doc_embeddings.T
print(similarity)
'''
array([[0.66212064, 0.33066642],
       [0.25866613, 0.5865289 ]], dtype=float32)
'''

评估：

数据集：Legal Zalo 2021 的完整训练数据集。我们的模型未在该数据集上进行训练。

模型	Accuracy@1	Accuracy@3	Accuracy@5	Accuracy@10	MRR@10
Vietnamese_Reranker	0.7944	0.9324	0.9537	0.9740	0.8672
Vietnamese_Embedding_v2	0.7262	0.8927	0.9268	0.9578	0.8149
Vietnamese_Embedding	0.7274	0.8992	0.9305	0.9568	0.8181
vti-bge-embeddingv6			0.9127	0.9446	0.7888
Vietnamese-bi-encoder (BKAI)	0.7109	0.8680	0.9014	0.9299	0.7951
BGE-M3	0.5682	0.7728	0.8382	0.8921	0.6822

Vietnamese_Reranker 和 Vietnamese_Embedding_v2 在 1,100,000 个三元组上进行了训练。尽管在 Vietnamese_Embedding（第二阶段）的法律领域得分略有下降，但由于该阶段数据量要大得多，因此对其他领域也有良好的效果。

您可以通过运行 python evaluation_model.py（数据从 Kaggle 下载）来复现评估结果。

联系方式

邮箱：hiep.tranvan@vti.com.vn

引用

@misc{vti-bge-embedding,
  title={vti-bge-embedding-v6: Embedding model in Vietnamese language.},
  author={Nguyen Nho Trung, Nguyen Nhat Quang, Nguyễn Văn Huy},
  year={2025},
  publisher={Huggingface},
}

hieptran318204/vti-embedding-bge-v6

作者 hieptran318204

sentence-similarity sentence-transformers

↓ 0 ♥ 0

创建时间: 2025-10-08 03:30:35+00:00

更新时间: 2025-11-10 04:20:01+00:00

在 Hugging Face 上查看

文件 (12)

.gitattributes

1_Pooling/config.json

README.md

adapter_config.json

adapter_model.safetensors

config_sentence_transformers.json

modules.json

sentence_bert_config.json

sentencepiece.bpe.model

special_tokens_map.json

tokenizer.json

tokenizer_config.json