ONNX 模型库
返回模型

说明文档

关于 TexTeller

  • 📮[2024-03-25] TexTeller 2.0 发布!TexTeller 2.0 的训练数据已增加至 750 万(约为 TexTeller 1.0 的 15 倍,同时数据质量也有所提升)。训练后的 TexTeller 2.0 在测试集上展现出 卓越的性能,尤其是在识别稀有符号、复杂多行公式和矩阵方面。

    这里 有更多测试图片以及不同公司识别模型的横向对比。

TexTeller 是一个基于 ViT 的端到端公式识别模型。它可以识别自然图像中的公式,并将其转换为 LaTeX 风格的公式。

TexTeller 基于更大的图像-公式配对数据集进行训练(55 万数据集可在此处获取),与使用约 10 万数据点的 LaTeX-OCR 相比,表现出更强的泛化能力和更高的准确率。这个更大的数据集使 TexTeller 能够更有效地覆盖大多数使用场景。

欲了解更多详情,请参阅 𝐓𝐞𝐱𝐓𝐞𝐥𝐥𝐞𝐫 的 GitHub 仓库

OleehyO/TexTeller

作者 OleehyO

image-to-text transformers
↓ 82.3K ♥ 43

创建时间: 2024-02-10 08:44:40+00:00

更新时间: 2024-06-22 07:15:02+00:00

在 Hugging Face 上查看

文件 (17)

.gitattributes
README.md
README_zh.md
added_tokens.json
config.json
decoder_model.onnx ONNX
decoder_model_merged.onnx ONNX
decoder_with_past_model.onnx ONNX
encoder_model.onnx ONNX
generation_config.json
merges.txt
model.safetensors
pytorch_model.bin
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json