说明文档

文本审核

该模型是一个基于Deberta-v3的文本分类模型，用于预测文本是否包含可能被认为具有攻击性的内容。它包含以下标签：

类别	标签	定义
色情	`S`	旨在唤起性兴奋的内容，如性活动描述，或宣传性服务的内容（不包括性教育和健康内容）。
仇恨	`H`	基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓表达、煽动或促进仇恨的内容。
暴力	`V`	宣传或美化暴力或庆祝他人遭受折磨或羞辱的内容。
骚扰	`HR`	可用于在现实中骚扰或打扰他人，或使骚扰更有可能发生的内容。
自残	`SH`	宣传、鼓励或描述自残行为的内容，如自杀、割伤和饮食失调。
色情/未成年人	`S3`	包含18岁以下个人的色情内容。
仇恨/威胁性	`H2`	同时包含针对目标群体的暴力或严重伤害的仇恨内容。
暴力/血腥	`V2`	以极端详细的方式描绘死亡、暴力或严重人身伤害的暴力内容。
正常	`OK`	无攻击性

需要记住的是，该模型仅在英文文本上进行训练，在非英文输入上可能表现不佳。

伦理考量

这是一个处理敏感和潜在有害语言的模型。用户应考虑在应用程序或情境中使用或部署该模型的伦理含义和潜在风险。可能出现的一些伦理问题包括：

该模型可能会强化或放大数据或社会中的现有偏见或刻板印象。例如，该模型可能会根据数据中的频率或共现情况，将某些词汇或话题与攻击性语言联系起来，而不考虑其背后的含义或意图。这可能导致对某些群体或个人的预测不公平或不准确。

用户应仔细考虑使用该模型的目的、背景和影响，并采取适当措施防止或减轻任何潜在伤害。用户还应尊重数据主体的隐私和同意，并遵守其管辖范围内的相关法律法规。

许可证

该模型基于CodeML OpenRAIL-M 0.1许可证授权，这是BigCode OpenRAIL-M许可证的变体。该许可证允许您自由访问、使用、修改和分发该模型及其衍生品，用于研究、商业或非商业目的，但需遵守以下条件：

您必须在分发的该模型任何副本或衍生品中包含许可证副本和模型原始来源。
您不得将该模型或其衍生品用于任何非法、有害、滥用、歧视性或攻击性目的，或导致或促成任何社会或环境伤害。
您必须尊重数据主体的隐私和同意，这些数据被用于训练或评估模型，并遵守您管辖范围内的相关法律法规。
您必须承认该模型及其衍生品按"原样"提供，不提供任何形式的保证或担保，许可方不对因您使用该模型或其衍生品而导致的任何损害或损失负责。

访问或使用该模型即表示您同意受本许可证条款的约束。如果您不同意本许可证的条款，您不得访问或使用该模型。

训练详情

问题类型：多分类
二氧化碳排放量（克）：0.0397

验证指标

损失：0.848
准确率：0.749 (75%)
宏F1：0.326
微F1：0.749
加权F1：0.703
宏精确率：0.321
微精确率：0.749
加权精确率：0.671
宏召回率：0.349
微召回率：0.749
加权召回率：0.749

使用方法

您可以使用cURL访问该模型：

$ curl -X POST -H \"Authorization: Bearer YOUR_API_KEY\" -H \"Content-Type: application/json\" -d '{\"inputs\": \"I love AutoTrain\"}' https://api-inference.huggingface.co/models/KoalaAI/Text-Moderation

或使用Python API：

from transformers import AutoModelForSequenceClassification, AutoTokenizer

# 加载模型和分词器
model = AutoModelForSequenceClassification.from_pretrained(\"KoalaAI/Text-Moderation\")
tokenizer = AutoTokenizer.from_pretrained(\"KoalaAI/Text-Moderation\")

# 在输入上运行模型
inputs = tokenizer(\"I love AutoTrain\", return_tensors=\"pt\")
outputs = model(**inputs)

# 获取预测的logits
logits = outputs.logits

# 应用softmax获取概率（分数）
probabilities = logits.softmax(dim=-1).squeeze()

# 检索标签
id2label = model.config.id2label
labels = [id2label[idx] for idx in range(len(probabilities))]

# 组合标签和概率，然后排序
label_prob_pairs = list(zip(labels, probabilities))
label_prob_pairs.sort(key=lambda item: item[1], reverse=True)  

# 打印排序后的结果
for label, probability in label_prob_pairs:
    print(f\"Label: {label} - Probability: {probability:.4f}\")

上述Python代码的输出如下：

Label: OK - Probability: 0.9840
Label: H - Probability: 0.0043
Label: SH - Probability: 0.0039
Label: V - Probability: 0.0019
Label: S - Probability: 0.0018
Label: HR - Probability: 0.0015
Label: V2 - Probability: 0.0011
Label: S3 - Probability: 0.0010
Label: H2 - Probability: 0.0006

KoalaAI/Text-Moderation

作者 KoalaAI

text-classification transformers

↓ 27.8K ♥ 88

创建时间: 2023-10-05 18:14:54+00:00

更新时间: 2025-01-31 17:37:38+00:00

在 Hugging Face 上查看

文件 (19)

.gitattributes

README.md

config.json

merges.txt

model.safetensors

onnx/model.onnx ONNX

onnx/model_bnb4.onnx ONNX

onnx/model_fp16.onnx ONNX

onnx/model_int8.onnx ONNX

onnx/model_q4.onnx ONNX

onnx/model_q4f16.onnx ONNX

onnx/model_quantized.onnx ONNX

onnx/model_uint8.onnx ONNX

pytorch_model.bin

quantize_config.json

special_tokens_map.json

tokenizer.json

tokenizer_config.json

vocab.json