说明文档

🚀 多语言情感分类模型（支持23种语言）

<img src="https://raw.githubusercontent.com/unslothai/unsloth/main/images/Discord%20button.png" width="200"/>

新闻！

2025年8月：重大模型更新 + 新增1种语言：斯瓦希里语！同时，所有语言的整体性能都有所提升。
2025年8月：我们的模型提供免费API！请见下方！
2025年7月：我们刚刚发布了 ModernFinBERT，这是我们要开发一段时间的模型。它基于 ModernBERT 架构构建，并在真实数据和合成数据的混合数据集上进行训练，同时对公共数据集应用了基于LLM的标签校正，以修复人工标注错误。它在多个基准测试中表现良好——在某些情况下，比 FinBERT 等现有模型的准确率提高了高达48%。您可以在 Hugging Face 上查看： 👉 https://huggingface.co/tabularisai/ModernFinBERT
2024年12月：我们很高兴推出多语言情感模型！现在您可以跨多种语言分析情感，拓展您的全球影响力。

🔌 托管API

我们提供托管推理API：

示例请求体：

curl -X POST https://api.tabularis.ai/ \
     -H "Content-Type: application/json" \
     -d '{"text":"I love the design","return_all_scores":false}'

模型详情

模型名称： tabularisai/multilingual-sentiment-analysis
基础模型： distilbert/distilbert-base-multilingual-cased
任务： 文本分类（情感分析）
语言： 支持英语以及中文（中文）、西班牙语（Español）、印地语（हिन्दी）、阿拉伯语（العربية）、孟加拉语（বাংলা）、葡萄牙语（Português）、俄语（Русский）、日语（日本語）、德语（Deutsch）、马来语（Bahasa Melayu）、泰卢固语（తెలుగు）、越南语（Tiếng Việt）、韩语（한국어）、法语（Français）、土耳其语（Türkçe）、意大利语（Italiano）、波兰语（Polski）、乌克兰语（Українська）、他加禄语、荷兰语（Nederlands）、瑞士德语（Schweizerdeutsch）和斯瓦希里语。
类别数量： 5类（非常负面、负面、中性、正面、非常正面）
用途：
- 社交媒体分析
- 客户反馈分析
- 产品评论分类
- 品牌监控
- 市场研究
- 客户服务优化
- 竞争情报

如果您希望将此模型用于商业目的，请通过以下方式获取许可证：info@tabularis.ai

模型描述

该模型是基于 distilbert/distilbert-base-multilingual-cased 针对多语言情感分析进行微调的版本。它利用来自多个来源的合成数据，在不同语言和文化背景下实现稳健的性能。

训练数据

完全基于高级LLM生成的合成多语言数据进行训练，确保广泛覆盖各种语言的情感表达。

训练过程

微调了3.5个epoch。
在验证数据集上达到了约0.93的 train_acc_off_by_one。

预期用途

适用于：

多语言社交媒体监控
国际客户反馈分析
全球产品评论情感分类
全球品牌情感追踪

如何使用

使用pipelines，只需4行代码：

from transformers import pipeline

# 使用指定模型加载分类pipeline
pipe = pipeline("text-classification", model="tabularisai/multilingual-sentiment-analysis")

# 对新句子进行分类
sentence = "I love this product! It's amazing and works perfectly."
result = pipe(sentence)

# 打印结果
print(result)

以下是一个不使用pipelines的多语言情感模型Python示例：

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name = "tabularisai/multilingual-sentiment-analysis"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

def predict_sentiment(texts):
    inputs = tokenizer(texts, return_tensors="pt", truncation=True, padding=True, max_length=512)
    with torch.no_grad():
        outputs = model(**inputs)
    probabilities = torch.nn.functional.softmax(outputs.logits, dim=-1)
    sentiment_map = {0: "Very Negative", 1: "Negative", 2: "Neutral", 3: "Positive", 4: "Very Positive"}
    return [sentiment_map[p] for p in torch.argmax(probabilities, dim=-1).tolist()]

texts = [
    # 英语
    "I absolutely love the new design of this app!", "The customer service was disappointing.", "The weather is fine, nothing special.",
    # 中文
    "这家餐厅的菜味道非常棒！", "我对他的回答很失望。", "天气今天一般。",
    # 西班牙语
    "¡Me encanta cómo quedó la decoración!", "El servicio fue terrible y muy lento.", "El libro estuvo más o menos.",
    # 阿拉伯语
    "الخدمة في هذا الفندق رائعة جدًا!", "لم يعجبني الطعام في هذا المطعم.", "كانت الرحلة عادية。",
    # 乌克兰语
    "Мені дуже сподобалася ця вистава!", "Обслуговування було жахливим.", "Книга була посередньою。",
    # 印地语
    "यह जगह सच में अद्भुत है!", "यह अनुभव बहुत खराब था।", "फिल्म ठीक-ठाक थी।",
    # 孟加拉语
    "এখানকার পরিবেশ অসাধারণ!", "সেবার মান একেবারেই খারাপ।", "খাবারটা মোটামুটি ছিল।",
    # 葡萄牙语
    "Este livro é fantástico! Eu aprendi muitas coisas novas e inspiradoras.", 
    "Não gostei do produto, veio quebrado.", "O filme foi ok, nada de especial.",
    # 日语
    "このレストランの料理は本当に美味しいです！", "このホテルのサービスはがっかりしました。", "天気はまあまあです。",
    # 俄语
    "Я в восторге от этого нового гаджета!", "Этот сервис оставил у меня только разочарование.", "Встреча была обычной, ничего особенного.",
    # 法语
    "J'adore ce restaurant, c'est excellent !", "L'attente était trop longue et frustrante.", "Le film était moyen, sans plus.",
    # 土耳其语
    "Bu otelin manzarasına bayıldım!", "Ürün tam bir hayal kırıklığıydı.", "Konser fena değildi, ortalamaydı.",
    # 意大利语
    "Adoro questo posto, è fantastico!", "Il servizio clienti è stato pessimo.", "La cena era nella media.",
    # 波兰语
    "Uwielbiam tę restaurację, jedzenie jest świetne!", "Obsługa klienta była rozczarowująca.", "Pogoda jest w porządku, nic szczególnego.",
    # 他加禄语
    "Ang ganda ng lugar na ito, sobrang aliwalas!", "Hindi maganda ang serbisyo nila dito.", "Maayos lang ang palabas, walang espesyal.",
    # 荷兰语
    "Ik ben echt blij met mijn nieuwe aankoop!", "De klantenservice was echt slecht.", "De presentatie was gewoon oké, niet bijzonder.",
    # 马来语
    "Saya suka makanan di sini, sangat sedap!", "Pengalaman ini sangat mengecewakan.", "Hari ini cuacanya biasa sahaja.",
    # 韩语
    "이 가게의 케이크는 정말 맛있어요!", "서비스가 너무 별로였어요.", "날씨가 그저 그렇네요.",
    # 瑞士德语
    "Ich find dä Service i de Beiz mega guet!", "Däs Esä het mir nöd gfalle.", "D Wätter hüt isch so naja."
]

for text, sentiment in zip(texts, predict_sentiment(texts)):
    print(f"Text: {text}\nSentiment: {sentiment}\n")

伦理考量

合成数据可以减少偏见，但建议在实际场景中进行验证。

引用

@misc{tabularisai_2025,
	author       = { tabularisai and Samuel Gyamfi and Vadim Borisov and Richard H. Schreiber },
	title        = { multilingual-sentiment-analysis (Revision 69afb83) },
	year         = 2025,
	url          = { https://huggingface.co/tabularisai/multilingual-sentiment-analysis },
	doi          = { 10.57967/hf/5968 },
	publisher    = { Hugging Face }
}

联系方式

如有咨询、数据需求、私有API、更优模型，请联系 info@tabularis.ai

tabularis.ai

oxygeneDev/sentiment-multilingual

作者 oxygeneDev

text-classification transformers

↓ 1 ♥ 0

创建时间: 2025-07-18 14:12:27+00:00

更新时间: 2025-09-11 10:35:43+00:00

在 Hugging Face 上查看

文件 (12)

.gitattributes

README.md

config.json

model.safetensors

onnx/config.json

onnx/model.onnx ONNX

pytorch_model.bin

special_tokens_map.json

tokenizer.json

tokenizer_config.json

training_args.bin

vocab.txt