说明文档

Anti-Judol DeBERTa-v3-Base：在线赌博文本分类模型

模型描述 / Deskripsi Model

中文： 本模型是 microsoft/mdeberta-v3-base 的微调版本，专为检测和分类印尼语文本中的在线赌博相关内容而设计。该模型有助于识别潜在有害的赌博内容，以支持数字安全倡议和内容审核工作。它能够高准确度地区分赌博相关文本和非赌博文本，非常适合用于自动内容过滤系统。

Bahasa Indonesia： Model ini adalah versi fine-tuned dari microsoft/mdeberta-v3-base yang dirancang khusus untuk mendeteksi dan mengklasifikasikan konten terkait judi online dalam teks bahasa Indonesia. Model ini membantu mengidentifikasi konten judi yang berpotensi berbahaya untuk mendukung inisiatif keamanan digital dan upaya moderasi konten. Model dapat membedakan antara teks yang terkait judi dan bukan judi dengan akurasi tinggi, menjadikannya berguna untuk sistem penyaringan konten otomatis.

预期用途 / Penggunaan yang Dimaksudkan

中文：

社交媒体平台的内容审核
赌博广告的自动检测
教育内容过滤
数字安全应用
有害内容检测研究

Bahasa Indonesia：

Moderasi konten untuk platform media sosial
Deteksi otomatis iklan judi
Penyaringan konten edukatif
Aplikasi keamanan digital
Penelitian deteksi konten berbahaya

使用方法 / Cara Penggunaan

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Load model and tokenizer
tokenizer = AutoTokenizer.from_pretrained("aliffatulmf/anti-judol-deberta-v3-base")
model = AutoModelForSequenceClassification.from_pretrained("aliffatulmf/anti-judol-deberta-v3-base")

# Example text classification
text = "Ayo main slot online berhadiah jutaan rupiah!"
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)

with torch.no_grad():
    outputs = model(**inputs)
    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
    predicted_class = torch.argmax(predictions, dim=-1)

# 0: Non-gambling, 1: Gambling-related
labels = ["Non-Judi", "Judi"]
result = labels[predicted_class.item()]
confidence = torch.max(predictions).item()

print(f"Prediksi: {result} (Confidence: {confidence:.4f})")

训练数据 / Data Pelatihan

中文： 该模型在精心策划的印尼语文本样本数据集上进行训练，包含赌博相关和非赌博内容。数据集涵盖多种类型的赌博内容，如在线赌场广告、体育博彩推广、彩票骗局以及赌博相关讨论，并与来自新闻、社交媒体和教育来源的合法内容保持平衡。

Bahasa Indonesia： Model dilatih menggunakan dataset yang dikurasi berisi sampel teks bahasa Indonesia yang mencakup konten terkait judi dan bukan judi. Dataset mencakup berbagai jenis konten judi seperti iklan kasino online, promosi taruhan olahraga, skema lotere, dan diskusi terkait judi, yang diseimbangkan dengan konten legitim dari berita, media sosial, dan sumber edukatif.

训练过程 / Prosedur Pelatihan

训练超参数：

Learning rate: 2e-4
Batch size: 16
Number of epochs: 3
Max sequence length: 256
Optimizer: AdamW
Weight decay: 0.01

评估结果 / Hasil Evaluasi

指标	分数
Accuracy	0.970
Precision	0.944
Recall	0.963
F1-Score	0.953

局限性 / Keterbatasan

中文：

主要针对印尼语文本设计
对语码转换或混合语言内容的性能可能降低
对新兴赌博术语或俚语的性能可能有所变化
不适合检测复杂的规避技术

Bahasa Indonesia：

Dirancang utamanya untuk teks bahasa Indonesia
Mungkin memiliki performa yang berkurang pada konten code-switching atau bahasa campuran
Performa dapat bervariasi dengan terminologi atau slang judi yang baru muncul
Tidak cocok untuk mendeteksi teknik penghindaran yang canggih

伦理考量 / Pertimbangan Etis

中文： 本模型的开发旨在支持数字安全和减少危害的工作。应在遵守当地法律法规的前提下负责任地使用。对于关键决策，模型的预测结果应由人工审核员进行审查。

Bahasa Indonesia： Model ini dikembangkan untuk mendukung upaya keamanan digital dan pengurangan bahaya. Model harus digunakan secara bertanggung jawab dan sesuai dengan hukum dan regulasi setempat. Prediksi model harus ditinjau oleh moderator manusia untuk keputusan kritis.

引用 / Sitasi

@misc{anti-judol-deberta-v3-base,
  title={Anti-Judol DeBERTa-v3-Base: Online Gambling Text Classification},
  author={Alif Fatul},
  year={2025},
  publisher={Hugging Face},
  url={https://huggingface.co/aliffatulmf/anti-judol-deberta-v3-base}
}

免责声明： 本模型仅供研究和教育目的。用户在将本模型部署到生产环境时，有责任确保遵守适用的法律法规和道德准则。

aliffatulmf/mdeberta-v3-base-anti-judol

作者 aliffatulmf

text-classification

↓ 1 ♥ 0

创建时间: 2025-05-24 00:04:20+00:00

更新时间: 2025-05-24 03:04:19+00:00

在 Hugging Face 上查看

文件 (9)

.gitattributes

README.md

added_tokens.json

config.json

model.safetensors

onnx/model_fp16.onnx ONNX

special_tokens_map.json

spm.model

tokenizer_config.json