返回模型
说明文档
huBERT 基础模型(区分大小写)
模型描述
面向匈牙利语的区别大小写BERT模型,基于Common Crawl的匈牙利语子集(经过过滤和去重)以及匈牙利语维基百科的快照进行训练。
预期用途与局限性
该模型可以像其他任何(区分大小写的)BERT模型一样使用。它已在分块(chunking)和命名实体识别任务上进行了测试,并在前者上取得了新的最先进成果。
训练
训练数据和过程的详细信息可在下面链接的博士论文中找到。(需要注意的是,它只包含基于维基百科子语料库的初步结果。完整模型的评估将出现在未来的论文中。)
评估结果
当通过BertForTokenClassification在分块和NER任务上进行微调时,该模型优于多语言BERT,在两项任务上都达到了最先进的结果。具体得分如下:
| NER | 最小NP | 最大NP |
|---|---|---|
| 97.62% | 97.14% | 96.97% |
BibTeX 条目和引用信息
如果您使用该模型,请引用以下论文:
Bibtex:
@PhDThesis{ Nemeskey:2020,
author = {Nemeskey, Dávid Márk},
title = {Natural Language Processing Methods for Language Modeling},
year = {2020},
school = {E\"otv\"os Lor\'and University}
}
Bibtex:
@InProceedings{ Nemeskey:2021a,
author = {Nemeskey, Dávid Márk},
title = {Introducing \texttt{huBERT}},
booktitle = {{XVII}.\ Magyar Sz{\'a}m{\'i}t{\'o}g{\'e}pes Nyelv{\'e}szeti Konferencia ({MSZNY}2021)},
year = 2021,
pages = {TBA},
address = {Szeged},
}
Gustyff/hubert-base-cc-onnx
作者 Gustyff
feature-extraction
transformers
↓ 0
♥ 0
创建时间: 2023-12-08 07:28:44+00:00
更新时间: 2023-12-08 07:48:18+00:00
在 Hugging Face 上查看文件 (10)
.gitattributes
README.md
config.json
onnx/model.onnx
ONNX
onnx/model_quantized.onnx
ONNX
quantize_config.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.txt