ONNX 模型库
返回模型

说明文档

huBERT 基础模型(区分大小写)

模型描述

面向匈牙利语的区别大小写BERT模型,基于Common Crawl的匈牙利语子集(经过过滤和去重)以及匈牙利语维基百科的快照进行训练。

预期用途与局限性

该模型可以像其他任何(区分大小写的)BERT模型一样使用。它已在分块(chunking)和命名实体识别任务上进行了测试,并在前者上取得了新的最先进成果。

训练

训练数据和过程的详细信息可在下面链接的博士论文中找到。(需要注意的是,它只包含基于维基百科子语料库的初步结果。完整模型的评估将出现在未来的论文中。)

评估结果

当通过BertForTokenClassification在分块和NER任务上进行微调时,该模型优于多语言BERT,在两项任务上都达到了最先进的结果。具体得分如下:

NER 最小NP 最大NP
97.62% 97.14% 96.97%

BibTeX 条目和引用信息

如果您使用该模型,请引用以下论文:

Nemeskey, Dávid Márk (2020). "Natural Language Processing Methods for Language Modeling." PhD Thesis. Eötvös Loránd University.

Bibtex:

@PhDThesis{ Nemeskey:2020,
  author = {Nemeskey, Dávid Márk},
  title  = {Natural Language Processing Methods for Language Modeling},
  year   = {2020},
  school = {E\"otv\"os Lor\'and University}
}

Nemeskey, Dávid Márk (2021). "Introducing huBERT." In: XVII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2021). Szeged, pp. 3-14

Bibtex:

@InProceedings{ Nemeskey:2021a,
  author = {Nemeskey, Dávid Márk},
  title = {Introducing \texttt{huBERT}},
  booktitle = {{XVII}.\ Magyar Sz{\'a}m{\'i}t{\'o}g{\'e}pes Nyelv{\'e}szeti Konferencia ({MSZNY}2021)},
  year = 2021,
  pages = {TBA},
  address = {Szeged},
}

Gustyff/hubert-base-cc-onnx

作者 Gustyff

feature-extraction transformers
↓ 0 ♥ 0

创建时间: 2023-12-08 07:28:44+00:00

更新时间: 2023-12-08 07:48:18+00:00

在 Hugging Face 上查看

文件 (10)

.gitattributes
README.md
config.json
onnx/model.onnx ONNX
onnx/model_quantized.onnx ONNX
quantize_config.json
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.txt