ONNX 模型库
返回模型

说明文档

<!-- 此模型卡片已根据 Trainer 可访问的信息自动生成。您可能需要对其进行校对和完善,然后删除此注释。-->

🌟 购买咖啡是直接支持本项目的方式。 <a href="https://www.buymeacoffee.com/isotonic"><img src="https://www.buymeacoffee.com/assets/img/guidelines/download-assets-sm-1.svg" alt=""></a>

distilbert_finetuned_ai4privacy_v2

此模型是基于 distilbert-base-uncasedai4privacy/pii-masking-200k 数据集的英语子集上微调而成的。

使用方法

GitHub 实现:Ai4Privacy

模型描述

此模型已在全球最大的开源隐私数据集上进行了微调。

训练模型的目的是从文本中移除个人身份信息(PII),特别是在 AI 助手和 LLM 的背景下。

示例文本包含 54 个 PII 类别(敏感数据类型),涵盖 229 个讨论主题/用例,分布在商业、教育、心理学和法律领域,以及 5 种交互方式(如随意对话、正式文档、电子邮件等)。

有关具体研究内容,请查看 Github 实现。

预期用途与限制

需要更多信息

训练和评估数据

需要更多信息

训练超参数

以下超参数用于训练:

  • 学习率:5e-05
  • 训练批次大小:8
  • 评估批次大小:8
  • 随机种子:42
  • 优化器:Adam,betas=(0.9,0.999) 和 epsilon=1e-08
  • 学习率调度器类型:cosine_with_restarts
  • 学习率调度器预热比例:0.2
  • 训练轮数:5

各类别指标

在评估集上取得以下结果:

  • 损失:0.0451

  • 总体精确率:0.9438

  • 总体召回率:0.9663

  • 总体 F1:0.9549

  • 总体准确率:0.9838

  • 账户名 F1:0.9946

  • 账户号码 F1:0.9940

  • 年龄 F1:0.9624

  • 金额 F1:0.9643

  • BIC F1:0.9929

  • 比特币地址 F1:0.9948

  • 建筑号码 F1:0.9845

  • 城市 F1:0.9955

  • 公司名称 F1:0.9962

  • 县 F1:0.9877

  • 信用卡 CVV F1:0.9643

  • 信用卡发行机构 F1:0.9953

  • 信用卡号码 F1:0.9793

  • 货币 F1:0.7811

  • 货币代码 F1:0.8850

  • 货币名称 F1:0.2281

  • 货币符号 F1:0.9562

  • 日期 F1:0.9061

  • 出生日期 F1:0.7914

  • 邮箱 F1:1.0

  • 以太坊地址 F1:1.0

  • 眼睛颜色 F1:0.9837

  • 名字 F1:0.9846

  • 性别 F1:0.9971

  • 身高 F1:0.9910

  • IBAN F1:0.9906

  • IP 地址 F1:0.4349

  • IPv4 F1:0.8126

  • IPv6 F1:0.7679

  • 工作领域 F1:0.9880

  • 职位名称 F1:0.9991

  • 工作类型 F1:0.9777

  • 姓氏 F1:0.9684

  • 莱特币地址 F1:0.9721

  • MAC 地址 F1:1.0

  • 遮蔽号码 F1:0.9635

  • 中间名 F1:0.9330

  • 附近 GPS 坐标 F1:1.0

  • 方位词 F1:0.9910

  • 密码 F1:1.0

  • 手机 IMEI F1:0.9918

  • 电话号码 F1:0.9962

  • PIN 码 F1:0.9477

  • 称呼前缀 F1:0.9546

  • 第二地址 F1:0.9892

  • 性别 F1:0.9876

  • 社保号 F1:0.9976

  • 州/省 F1:0.9893

  • 街道 F1:0.9873

  • 时间 F1:0.9889

  • 网址 F1:1.0

  • 用户代理 F1:0.9953

  • 用户名 F1:0.9975

  • 车架号 F1:1.0

  • 车牌号 F1:1.0

  • 邮编 F1:0.9873

训练结果

训练损失 轮次 步数 验证损失 总体精确率 总体召回率 总体 F1 总体准确率 账户名 F1 账户号码 F1 年龄 F1 金额 F1 BIC F1 比特币地址 F1 建筑号码 F1 城市 F1 公司名称 F1 县 F1 信用卡 CVV F1 信用卡发行机构 F1 信用卡号码 F1 货币 F1 货币代码 F1 货币名称 F1 货币符号 F1 日期 F1 出生日期 F1 邮箱 F1 以太坊地址 F1 眼睛颜色 F1 名字 F1 性别 F1 身高 F1 IBAN F1 IP 地址 F1 IPv4 F1 IPv6 F1 工作领域 F1 职位名称 F1 工作类型 F1 姓氏 F1 莱特币地址 F1 MAC 地址 F1 遮蔽号码 F1 中间名 F1 附近 GPS 坐标 F1 方位词 F1 密码 F1 手机 IMEI F1 电话号码 F1 PIN 码 F1 称呼前缀 F1 第二地址 F1 性别 F1 社保号 F1 州/省 F1 街道 F1 时间 F1 网址 F1 用户代理 F1 用户名 F1 车架号 F1 车牌号 F1 邮编 F1
0.6445 1.0 1088 0.3322 0.6449 0.7003 0.6714 0.8900 0.7607 0.8733 0.6576 0.1766 0.25 0.6783 0.3621 0.6005 0.6909 0.5586 0.0 0.2449 0.7095 0.2889 0.0 0.0 0.3902 0.7720 0.0 0.9862 0.8011 0.5088 0.7740 0.7118 0.5434 0.8088 0.0 0.8303 0.7562 0.5318 0.7294 0.4681 0.6779 0.0 0.8909 0.0 0.0107 0.9985 0.4000 0.7307 0.9057 0.8618 0.0 0.9127 0.8235 0.9211 0.8026 0.4656 0.6390 0.9383 0.9775 0.8868 0.8201 0.4526 0.0550 0.5368
0.222 2.0 2176 0.1259 0.8170 0.8747 0.8449 0.9478 0.9708 0.9813 0.7638 0.7427 0.7837 0.8908 0.8833 0.8747 0.9814 0.8749 0.7601 0.9777 0.8834 0.5372 0.4828 0.0056 0.7785 0.8149 0.3140 0.9956 0.9935 0.9101 0.9270 0.9450 0.9853 0.9253 0.0650 0.0084 0.7962 0.9013 0.9446 0.9203 0.8555 0.6885 1.0 0.7152 0.6442 1.0 0.9623 0.9349 0.9905 0.9782 0.7656 0.9324 0.9903 0.9736 0.9274 0.8520 0.9138 0.9678 0.9922 0.9893 0.9804 0.9646 0.8556 0.8385
0.1331 3.0 3264 0.0773 0.9133 0.9371 0.9250 0.9654 0.9822 0.9815 0.9196 0.8852 0.9718 0.9785 0.9215 0.9757 0.9935 0.9651 0.8742 0.9921 0.9438 0.7568 0.7710 0.0 0.8998 0.7895 0.6578 0.9994 1.0 0.9554 0.9525 0.9823 0.9910 0.9866 0.0435 0.8293 0.7824 0.9671 0.9794 0.9571 0.9447 0.9141 1.0 0.8825 0.7988 1.0 0.9797 0.9921 0.9932 0.9943 0.8726 0.9401 0.9860 0.9792 0.9928 0.9740 0.9604 0.9730 0.9983 0.9964 0.9959 0.9890 0.9774 0.9247
0.0847 4.0 4352 0.0503 0.9368 0.9614 0.9489 0.9789 0.9955 0.9949 0.9573 0.9480 0.9929 0.9846 0.9808 0.9927 0.9962 0.9811 0.9436 0.9953 0.9695 0.7826 0.8713 0.1653 0.9458 0.8782 0.7996 1.0 1.0 0.9809 0.9816 0.9941 0.9910 0.9906 0.3389 0.8364 0.7066 0.9862 1.0 0.9795 0.9637 0.9429 1.0 0.9438 0.9165 1.0 0.9864 1.0 0.9932 0.9962 0.9352 0.9483 0.9860 0.9866 0.9976 0.9884 0.9827 0.9881 1.0 0.9953 0.9975 0.9945 0.9915 0.9841
0.0557 5.0 5440 0.0451 0.9438 0.9663 0.9549 0.9838 0.9946 0.9940 0.9624 0.9643 0.9929 0.9948 0.9845 0.9955 0.9962 0.9877 0.9643 0.9953 0.9793 0.7811 0.8850 0.2281 0.9562 0.9061 0.7914 1.0 1.0 0.9837 0.9846 0.9971 0.9910 0.9906 0.4349 0.8126 0.7679 0.9880 0.9991 0.9777 0.9684 0.9721 1.0 0.9635 0.9330 1.0 0.9910 1.0 0.9918 0.9962 0.9477 0.9546 0.9892 0.9876 0.9976 0.9893 0.9873 0.9889 1.0 0.9953 0.9975 1.0 1.0 0.9873

框架版本

  • Transformers 4.35.0
  • Pytorch 2.0.0
  • Datasets 2.1.0
  • Tokenizers 0.14.1

Isotonic/distilbert_finetuned_ai4privacy_v2

作者 Isotonic

token-classification transformers
↓ 304.7K ♥ 21

创建时间: 2023-11-20 13:33:34+00:00

更新时间: 2025-11-14 09:28:25+00:00

在 Hugging Face 上查看

文件 (20)

.gitattributes
README.md
all_results.json
config.json
eval_results.json
model.safetensors
onnx/added_tokens.json
onnx/config.json
onnx/model.onnx ONNX
onnx/special_tokens_map.json
onnx/tokenizer.json
onnx/tokenizer_config.json
onnx/vocab.txt
special_tokens_map.json
tokenizer.json
tokenizer_config.json
train_results.json
trainer_state.json
training_args.bin
vocab.txt