返回模型
说明文档
模型卡片
<!-- Provide a quick summary of what the model is/does. -->
本模型是基于 tohoku-nlp/bert-large-japanese-v2 进行微调的版本,旨在对日语语法点进行多分类。 训练数据来源于《日本語文型辞典》(语法辞典)的标注数据,并使用大语言模型生成的合成示例进行了增强。
用途
<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
直接使用
该模型接受日语句子作为输入,并预测该句子中最可能使用的语法点。可集成到语言学习应用、语法检查器或阅读辅助工具中。
不适用场景
- 机器翻译或文本生成任务。
- 超越语法点识别的语义理解。
微调详情
微调数据
来源:《日本語文型辞典》,覆盖约 2400 个语法点。 增强:通过大语言模型生成合成句子,以平衡低频语法点(每个语法点至少 20 个示例)。
微调过程
- 预处理:使用 MeCab + Unidic lite 进行分词;采用 WordPiece 子词编码。
- 批次大小:64
- 最大序列长度:128 个 token
- 优化器:AdamW(学习率 = 3e-5,权重衰减 = 0.05)
- 学习率调度器:前 20% 步骤线性预热,随后线性衰减
- 训练轮数:10
- 混合精度:已启用(fp16)
评估
- 测试集:从词典和合成数据集中保留的句子(占总量的 10%)。
- 指标:
- F1 分数(宏平均):83.51%
- Top2 F1 分数(宏平均):94.96%
arvine111/japanese-grammar-classification
作者 arvine111
text-classification
↓ 1
♥ 2
创建时间: 2025-04-22 03:04:27+00:00
更新时间: 2025-04-22 06:50:15+00:00
在 Hugging Face 上查看文件 (16)
.gitattributes
README.md
config.json
model.safetensors
onnx/model.onnx
ONNX
onnx/model_q4.onnx
ONNX
onnx/model_quantized.onnx
ONNX
optimizer.pt
rng_state.pth
scheduler.pt
special_tokens_map.json
tokenizer.json
tokenizer_config.json
trainer_state.json
training_args.bin
vocab.txt