说明文档

关于 TexTeller

📮[2024-03-25] TexTeller 2.0 发布！TexTeller 2.0 的训练数据已增加至 750 万（约为 TexTeller 1.0 的 15 倍，同时数据质量也有所提升）。训练后的 TexTeller 2.0 在测试集上展现出 卓越的性能，尤其是在识别稀有符号、复杂多行公式和矩阵方面。

这里有更多测试图片以及不同公司识别模型的横向对比。

TexTeller 是一个基于 ViT 的端到端公式识别模型。它可以识别自然图像中的公式，并将其转换为 LaTeX 风格的公式。

TexTeller 基于更大的图像-公式配对数据集进行训练（55 万数据集可在此处获取），与使用约 10 万数据点的 LaTeX-OCR 相比，表现出更强的泛化能力和更高的准确率。这个更大的数据集使 TexTeller 能够更有效地覆盖大多数使用场景。

欲了解更多详情，请参阅 𝐓𝐞𝐱𝐓𝐞𝐥𝐥𝐞𝐫 的 GitHub 仓库。

作者 OleehyO

image-to-text transformers

↓ 82.3K ♥ 43

创建时间: 2024-02-10 08:44:40+00:00

更新时间: 2024-06-22 07:15:02+00:00

.gitattributes

README.md

README_zh.md

added_tokens.json

config.json

decoder_model.onnx ONNX

decoder_model_merged.onnx ONNX

decoder_with_past_model.onnx ONNX

encoder_model.onnx ONNX

generation_config.json

merges.txt

model.safetensors

pytorch_model.bin

special_tokens_map.json

tokenizer.json

tokenizer_config.json

vocab.json