ONNX 模型库
返回模型

说明文档

吉尔吉斯语标点恢复模型 — XLM-RoBERTa

首个针对吉尔吉斯语的标点恢复模型,实现了 94.1% 的精确率90.3% 的 F1 分数 — 超越了其他低资源语言的基准测试。

📄 发表研究: "AI-Based Punctuation Restoration using Transformer Model for Kyrgyz Language" — Uvalieva Z., Muhametjanova G. (SCOPUS 索引)


亮点

  • 🏆 F1 分数:90.3% — 优于同类低资源语言模型
  • 🌍 同类首创 — 专为吉尔吉斯语(突厥语系,约 700 万使用者)设计
  • ONNX 格式 — 针对跨框架快速推理进行优化
  • 🎙️ ASR 后处理 — 旨在恢复语音转文本输出中的标点符号

性能

指标 分数
精确率 94.1%
召回率 86.8%
F1 分数 (F1-Score) 90.3%

跨语言对比

模型 语言 F1 分数
本模型 (XLM-RoBERTa) 吉尔吉斯语 90.3%
Alam et al. (2020) 英语 (干净) 87.0%
Alam et al. (2020) 孟加拉语 69.5%
Nagy et al. (2021) 匈牙利语 ~82.0%

该模型在常见标点符号(句号、逗号)上表现出色,但由于类别不平衡,在罕见标点符号(问号、感叹号)上准确率较低。


模型架构

参数
基础模型 XLM-RoBERTa-base
参数量 ~270M
Transformer 层数 12
隐藏维度 768
注意力头数 12
导出格式 ONNX

训练详情

数据集

一个历时 2 个月收集的自建 200 MB 吉尔吉斯语文本语料库:

来源 大小 描述
吉尔吉斯-土耳其玛纳斯大学图书馆 135 MB 书籍(文学、数学、物理)
吉尔吉斯语维基百科 40 MB 百科全书文章
新闻门户 25 MB 新闻文本

预处理流程: PDF → EasyOCR 文本提取 → 人工清洗 → 带标点标签的 JSON 格式化。

数据增强

针对吉尔吉斯语黏着语形态设计的专用增强技术:

  • 回译: 吉尔吉斯语 → 英语 → 吉尔吉斯语(模拟 ASR 类错误)
  • 词元级修改: 随机插入、删除、交换
  • 形态变换: 保持语法正确性的格形式和词缀修改

超参数

参数
批大小 32
训练轮数 10
优化器 Adam
学习率 5e-5
正则化 Dropout
硬件 Google Colab TPU
训练时间 42 小时

使用方法

import onnxruntime as ort
import numpy as np

# 加载 ONNX 模型
session = ort.InferenceSession("model.onnx")

# 准备输入(参见 config.yaml 了解分词器设置)
# 模型为每个词元预测标点标签:
# O(无标点)、COMMA(逗号)、PERIOD(句号)、QUESTION(问号)、EXCLAMATION(感叹号)

# 示例推理
input_text = "бул кыргыз тилиндеги текст"
# 分词并运行推理(参见 main.py 获取完整流程)

仓库结构

├── model.onnx           # ONNX 格式的训练模型 (1.11 GB)
├── main.py              # 推理流程
├── env.py               # 环境配置
├── config.yaml          # 超参数和模型配置
├── requirements.txt     # Python 依赖
└── Files/               # 其他模型文件

预期用途

用例 描述
ASR 后处理 为吉尔吉斯语语音转文本输出恢复标点符号
文本规范化 使用正确的标点符号清洗和格式化原始吉尔吉斯语文本
NLP 预处理 提升下游任务性能(命名实体识别、机器翻译、摘要)
无障碍访问 增强自动生成的吉尔吉斯语内容的可读性

局限性

  • 罕见标点符号: 由于训练数据中的类别不平衡,问号和感叹号的准确率较低
  • 正式文本偏差: 主要在文学/正式文本上训练;在非正式/对话文本(社交媒体、聊天)上的表现可能较差
  • 词缀边界错误: 在复杂的黏着结构中放置标点符号偶尔会出现困难
  • 领域特定性: 在散文类文本上表现最佳;专业领域可能需要额外微调

未来方向

  • 与相关突厥语言(哈萨克语、乌兹别克语、土耳其语)联合训练以改善跨语言迁移
  • 形态感知分词以替代标准 BPE
  • 扩展包含非正式和对话吉尔吉斯语文本的数据集
  • 与吉尔吉斯语 ASR 系统集成以实现端到端语音处理

引用

@article{uvalieva2024punctuation,
  author    = {Uvalieva, Zarina and Muhametjanova, Gulshat},
  title     = {AI-Based Punctuation Restoration using Transformer Model for Kyrgyz Language},
  year      = {2024},
  institution = {Kyrgyz-Turkish Manas University}
}

作者

Zarina Uvalieva — 专注于低资源语言 NLP 和语音技术的机器学习工程师。

Zarinaaa/punctuator_model

作者 Zarinaaa

token-classification
↓ 1 ♥ 0

创建时间: 2025-01-17 17:47:22+00:00

更新时间: 2026-02-14 11:06:22+00:00

在 Hugging Face 上查看

文件 (22)

.DS_Store
.gitattributes
.gitignore
Files/.DS_Store
Files/__init__.py
Files/merged.txt
Files/tb.py
Files/telegram_bot.py
Files/test.py
Files/word.py
README.md
__pycache__/env.cpython-310.pyc
__pycache__/env.cpython-311.pyc
__pycache__/test_copy.cpython-310.pyc
__pycache__/test_copy.cpython-311.pyc
config.yaml
env.py
main.py
model.onnx ONNX
requirements.txt
sp.model
test_copy.py