返回模型
说明文档
LoRA 微调 AI 生成内容检测器
免责声明
此 ONNX 模型是从 safetensors 格式 的原始模型转换而来。转换的目的是为了兼容使用 ONNX 模型的框架或工具。
请注意,此仓库与原始模型的创建者无关联。模型开发的所有功劳归原始作者所有。如需访问原始模型,请访问:原始模型链接。
如果您对原始模型、其许可或使用有任何疑问,请参阅上面提供的源链接。
这是一个使用 LoRA 微调的 e5-small 模型,用于序列分类任务。该模型经过优化,能够高精度地将文本分类为 AI 生成或人类撰写。
- Label_0:表示人类撰写的内容。
- Label_1:表示 AI 生成的内容。
模型详情
- 基础模型:
intfloat/e5-small - 微调技术:LoRA(低秩自适应)
- 任务:序列分类
- 应用场景:AI 生成内容检测的文本分类。
- 超参数:
- 学习率:
5e-5 - 训练轮数:
3 - LoRA 秩:
8 - LoRA alpha:
16
- 学习率:
训练详情
- 数据集:
- 10,000 条推文和 10,000 条使用 GPT-4o-mini 重写的推文。
- 来自 RAID-train 的 80,000 条人类撰写文本。
- 来自 RAID-train 的 128,000 条 AI 生成文本。
- 硬件:在单块 NVIDIA A100 GPU 上进行微调。
- 训练时间:约 2 小时。
- 评估指标:
指标 (原始) E5-small 微调后 准确率 65.2% 89.0% F1 分数 0.653 0.887 AUC 0.697 0.976
合作者
- Menglin Zhou
- Jiaping Liu
- Xiaotian Zhan
引用
如果您使用此模型,请按以下方式引用 RAID 数据集:
@inproceedings{dugan-etal-2024-raid,
title = \"{RAID}: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors\",
author = \"Dugan, Liam and
Hwang, Alyssa and
Trhl{\'\i}k, Filip and
Zhu, Andrew and
Ludan, Josh Magnus and
Xu, Hainiu and
Ippolito, Daphne and
Callison-Burch, Chris\",
booktitle = \"Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)\",
month = aug,
year = \"2024\",
address = \"Bangkok, Thailand\",
publisher = \"Association for Computational Linguistics\",
url = \"https://aclanthology.org/2024.acl-long.674\",
pages = \"12463--12492\",
}
limanup/e5-small
作者 limanup
text-classification
↓ 1
♥ 0
创建时间: 2025-06-19 19:59:00+00:00
更新时间: 2025-07-04 16:46:00+00:00
在 Hugging Face 上查看文件 (10)
.gitattributes
README.md
config.json
onnx/model.onnx
ONNX
onnx/model_fp32_logits_only.onnx
ONNX
onnx/model_quantized.onnx
ONNX
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.txt