返回模型

说明文档

huBERT 基础模型（区分大小写）

模型描述

面向匈牙利语的区别大小写BERT模型，基于Common Crawl的匈牙利语子集（经过过滤和去重）以及匈牙利语维基百科的快照进行训练。

预期用途与局限性

该模型可以像其他任何（区分大小写的）BERT模型一样使用。它已在分块（chunking）和命名实体识别任务上进行了测试，并在前者上取得了新的最先进成果。

训练

训练数据和过程的详细信息可在下面链接的博士论文中找到。（需要注意的是，它只包含基于维基百科子语料库的初步结果。完整模型的评估将出现在未来的论文中。）

评估结果

当通过BertForTokenClassification在分块和NER任务上进行微调时，该模型优于多语言BERT，在两项任务上都达到了最先进的结果。具体得分如下：

NER	最小NP	最大NP
97.62%	97.14%	96.97%

BibTeX 条目和引用信息

如果您使用该模型，请引用以下论文：

Nemeskey, Dávid Márk (2020). "Natural Language Processing Methods for Language Modeling." PhD Thesis. Eötvös Loránd University.

Bibtex:

@PhDThesis{ Nemeskey:2020,
  author = {Nemeskey, Dávid Márk},
  title  = {Natural Language Processing Methods for Language Modeling},
  year   = {2020},
  school = {E\"otv\"os Lor\'and University}
}

Nemeskey, Dávid Márk (2021). "Introducing huBERT." In: XVII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2021). Szeged, pp. 3-14

Bibtex:

@InProceedings{ Nemeskey:2021a,
  author = {Nemeskey, Dávid Márk},
  title = {Introducing \texttt{huBERT}},
  booktitle = {{XVII}.\ Magyar Sz{\'a}m{\'i}t{\'o}g{\'e}pes Nyelv{\'e}szeti Konferencia ({MSZNY}2021)},
  year = 2021,
  pages = {TBA},
  address = {Szeged},
}

Gustyff/hubert-base-cc-onnx

作者 Gustyff

feature-extraction transformers

↓ 0 ♥ 0

创建时间: 2023-12-08 07:28:44+00:00

更新时间: 2023-12-08 07:48:18+00:00

在 Hugging Face 上查看

文件 (10)

.gitattributes

README.md

config.json

onnx/model.onnx ONNX

onnx/model_quantized.onnx ONNX

quantize_config.json

special_tokens_map.json

tokenizer.json

tokenizer_config.json

vocab.txt