说明文档
<!-- 此模型卡片已根据 Trainer 可访问的信息自动生成。您可能需要对其进行校对和完善,然后删除此注释。-->
🌟 购买咖啡是直接支持本项目的方式。 <a href="https://www.buymeacoffee.com/isotonic"><img src="https://www.buymeacoffee.com/assets/img/guidelines/download-assets-sm-1.svg" alt=""></a>
distilbert_finetuned_ai4privacy_v2
此模型是基于 distilbert-base-uncased 在 ai4privacy/pii-masking-200k 数据集的英语子集上微调而成的。
使用方法
GitHub 实现:Ai4Privacy
模型描述
此模型已在全球最大的开源隐私数据集上进行了微调。
训练模型的目的是从文本中移除个人身份信息(PII),特别是在 AI 助手和 LLM 的背景下。
示例文本包含 54 个 PII 类别(敏感数据类型),涵盖 229 个讨论主题/用例,分布在商业、教育、心理学和法律领域,以及 5 种交互方式(如随意对话、正式文档、电子邮件等)。
有关具体研究内容,请查看 Github 实现。
预期用途与限制
需要更多信息
训练和评估数据
需要更多信息
训练超参数
以下超参数用于训练:
- 学习率:5e-05
- 训练批次大小:8
- 评估批次大小:8
- 随机种子:42
- 优化器:Adam,betas=(0.9,0.999) 和 epsilon=1e-08
- 学习率调度器类型:cosine_with_restarts
- 学习率调度器预热比例:0.2
- 训练轮数:5
各类别指标
在评估集上取得以下结果:
-
损失:0.0451
-
总体精确率:0.9438
-
总体召回率:0.9663
-
总体 F1:0.9549
-
总体准确率:0.9838
-
账户名 F1:0.9946
-
账户号码 F1:0.9940
-
年龄 F1:0.9624
-
金额 F1:0.9643
-
BIC F1:0.9929
-
比特币地址 F1:0.9948
-
建筑号码 F1:0.9845
-
城市 F1:0.9955
-
公司名称 F1:0.9962
-
县 F1:0.9877
-
信用卡 CVV F1:0.9643
-
信用卡发行机构 F1:0.9953
-
信用卡号码 F1:0.9793
-
货币 F1:0.7811
-
货币代码 F1:0.8850
-
货币名称 F1:0.2281
-
货币符号 F1:0.9562
-
日期 F1:0.9061
-
出生日期 F1:0.7914
-
邮箱 F1:1.0
-
以太坊地址 F1:1.0
-
眼睛颜色 F1:0.9837
-
名字 F1:0.9846
-
性别 F1:0.9971
-
身高 F1:0.9910
-
IBAN F1:0.9906
-
IP 地址 F1:0.4349
-
IPv4 F1:0.8126
-
IPv6 F1:0.7679
-
工作领域 F1:0.9880
-
职位名称 F1:0.9991
-
工作类型 F1:0.9777
-
姓氏 F1:0.9684
-
莱特币地址 F1:0.9721
-
MAC 地址 F1:1.0
-
遮蔽号码 F1:0.9635
-
中间名 F1:0.9330
-
附近 GPS 坐标 F1:1.0
-
方位词 F1:0.9910
-
密码 F1:1.0
-
手机 IMEI F1:0.9918
-
电话号码 F1:0.9962
-
PIN 码 F1:0.9477
-
称呼前缀 F1:0.9546
-
第二地址 F1:0.9892
-
性别 F1:0.9876
-
社保号 F1:0.9976
-
州/省 F1:0.9893
-
街道 F1:0.9873
-
时间 F1:0.9889
-
网址 F1:1.0
-
用户代理 F1:0.9953
-
用户名 F1:0.9975
-
车架号 F1:1.0
-
车牌号 F1:1.0
-
邮编 F1:0.9873
训练结果
| 训练损失 | 轮次 | 步数 | 验证损失 | 总体精确率 | 总体召回率 | 总体 F1 | 总体准确率 | 账户名 F1 | 账户号码 F1 | 年龄 F1 | 金额 F1 | BIC F1 | 比特币地址 F1 | 建筑号码 F1 | 城市 F1 | 公司名称 F1 | 县 F1 | 信用卡 CVV F1 | 信用卡发行机构 F1 | 信用卡号码 F1 | 货币 F1 | 货币代码 F1 | 货币名称 F1 | 货币符号 F1 | 日期 F1 | 出生日期 F1 | 邮箱 F1 | 以太坊地址 F1 | 眼睛颜色 F1 | 名字 F1 | 性别 F1 | 身高 F1 | IBAN F1 | IP 地址 F1 | IPv4 F1 | IPv6 F1 | 工作领域 F1 | 职位名称 F1 | 工作类型 F1 | 姓氏 F1 | 莱特币地址 F1 | MAC 地址 F1 | 遮蔽号码 F1 | 中间名 F1 | 附近 GPS 坐标 F1 | 方位词 F1 | 密码 F1 | 手机 IMEI F1 | 电话号码 F1 | PIN 码 F1 | 称呼前缀 F1 | 第二地址 F1 | 性别 F1 | 社保号 F1 | 州/省 F1 | 街道 F1 | 时间 F1 | 网址 F1 | 用户代理 F1 | 用户名 F1 | 车架号 F1 | 车牌号 F1 | 邮编 F1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0.6445 | 1.0 | 1088 | 0.3322 | 0.6449 | 0.7003 | 0.6714 | 0.8900 | 0.7607 | 0.8733 | 0.6576 | 0.1766 | 0.25 | 0.6783 | 0.3621 | 0.6005 | 0.6909 | 0.5586 | 0.0 | 0.2449 | 0.7095 | 0.2889 | 0.0 | 0.0 | 0.3902 | 0.7720 | 0.0 | 0.9862 | 0.8011 | 0.5088 | 0.7740 | 0.7118 | 0.5434 | 0.8088 | 0.0 | 0.8303 | 0.7562 | 0.5318 | 0.7294 | 0.4681 | 0.6779 | 0.0 | 0.8909 | 0.0 | 0.0107 | 0.9985 | 0.4000 | 0.7307 | 0.9057 | 0.8618 | 0.0 | 0.9127 | 0.8235 | 0.9211 | 0.8026 | 0.4656 | 0.6390 | 0.9383 | 0.9775 | 0.8868 | 0.8201 | 0.4526 | 0.0550 | 0.5368 |
| 0.222 | 2.0 | 2176 | 0.1259 | 0.8170 | 0.8747 | 0.8449 | 0.9478 | 0.9708 | 0.9813 | 0.7638 | 0.7427 | 0.7837 | 0.8908 | 0.8833 | 0.8747 | 0.9814 | 0.8749 | 0.7601 | 0.9777 | 0.8834 | 0.5372 | 0.4828 | 0.0056 | 0.7785 | 0.8149 | 0.3140 | 0.9956 | 0.9935 | 0.9101 | 0.9270 | 0.9450 | 0.9853 | 0.9253 | 0.0650 | 0.0084 | 0.7962 | 0.9013 | 0.9446 | 0.9203 | 0.8555 | 0.6885 | 1.0 | 0.7152 | 0.6442 | 1.0 | 0.9623 | 0.9349 | 0.9905 | 0.9782 | 0.7656 | 0.9324 | 0.9903 | 0.9736 | 0.9274 | 0.8520 | 0.9138 | 0.9678 | 0.9922 | 0.9893 | 0.9804 | 0.9646 | 0.8556 | 0.8385 |
| 0.1331 | 3.0 | 3264 | 0.0773 | 0.9133 | 0.9371 | 0.9250 | 0.9654 | 0.9822 | 0.9815 | 0.9196 | 0.8852 | 0.9718 | 0.9785 | 0.9215 | 0.9757 | 0.9935 | 0.9651 | 0.8742 | 0.9921 | 0.9438 | 0.7568 | 0.7710 | 0.0 | 0.8998 | 0.7895 | 0.6578 | 0.9994 | 1.0 | 0.9554 | 0.9525 | 0.9823 | 0.9910 | 0.9866 | 0.0435 | 0.8293 | 0.7824 | 0.9671 | 0.9794 | 0.9571 | 0.9447 | 0.9141 | 1.0 | 0.8825 | 0.7988 | 1.0 | 0.9797 | 0.9921 | 0.9932 | 0.9943 | 0.8726 | 0.9401 | 0.9860 | 0.9792 | 0.9928 | 0.9740 | 0.9604 | 0.9730 | 0.9983 | 0.9964 | 0.9959 | 0.9890 | 0.9774 | 0.9247 |
| 0.0847 | 4.0 | 4352 | 0.0503 | 0.9368 | 0.9614 | 0.9489 | 0.9789 | 0.9955 | 0.9949 | 0.9573 | 0.9480 | 0.9929 | 0.9846 | 0.9808 | 0.9927 | 0.9962 | 0.9811 | 0.9436 | 0.9953 | 0.9695 | 0.7826 | 0.8713 | 0.1653 | 0.9458 | 0.8782 | 0.7996 | 1.0 | 1.0 | 0.9809 | 0.9816 | 0.9941 | 0.9910 | 0.9906 | 0.3389 | 0.8364 | 0.7066 | 0.9862 | 1.0 | 0.9795 | 0.9637 | 0.9429 | 1.0 | 0.9438 | 0.9165 | 1.0 | 0.9864 | 1.0 | 0.9932 | 0.9962 | 0.9352 | 0.9483 | 0.9860 | 0.9866 | 0.9976 | 0.9884 | 0.9827 | 0.9881 | 1.0 | 0.9953 | 0.9975 | 0.9945 | 0.9915 | 0.9841 |
| 0.0557 | 5.0 | 5440 | 0.0451 | 0.9438 | 0.9663 | 0.9549 | 0.9838 | 0.9946 | 0.9940 | 0.9624 | 0.9643 | 0.9929 | 0.9948 | 0.9845 | 0.9955 | 0.9962 | 0.9877 | 0.9643 | 0.9953 | 0.9793 | 0.7811 | 0.8850 | 0.2281 | 0.9562 | 0.9061 | 0.7914 | 1.0 | 1.0 | 0.9837 | 0.9846 | 0.9971 | 0.9910 | 0.9906 | 0.4349 | 0.8126 | 0.7679 | 0.9880 | 0.9991 | 0.9777 | 0.9684 | 0.9721 | 1.0 | 0.9635 | 0.9330 | 1.0 | 0.9910 | 1.0 | 0.9918 | 0.9962 | 0.9477 | 0.9546 | 0.9892 | 0.9876 | 0.9976 | 0.9893 | 0.9873 | 0.9889 | 1.0 | 0.9953 | 0.9975 | 1.0 | 1.0 | 0.9873 |
框架版本
- Transformers 4.35.0
- Pytorch 2.0.0
- Datasets 2.1.0
- Tokenizers 0.14.1
Isotonic/distilbert_finetuned_ai4privacy_v2
作者 Isotonic
创建时间: 2023-11-20 13:33:34+00:00
更新时间: 2025-11-14 09:28:25+00:00
在 Hugging Face 上查看