说明文档

吉尔吉斯语标点恢复模型 — XLM-RoBERTa

首个针对吉尔吉斯语的标点恢复模型，实现了 94.1% 的精确率 和 90.3% 的 F1 分数 — 超越了其他低资源语言的基准测试。

📄 发表研究： "AI-Based Punctuation Restoration using Transformer Model for Kyrgyz Language" — Uvalieva Z., Muhametjanova G. (SCOPUS 索引)

亮点

🏆 F1 分数：90.3% — 优于同类低资源语言模型
🌍 同类首创 — 专为吉尔吉斯语（突厥语系，约 700 万使用者）设计
⚡ ONNX 格式 — 针对跨框架快速推理进行优化
🎙️ ASR 后处理 — 旨在恢复语音转文本输出中的标点符号

性能

指标	分数
精确率	94.1%
召回率	86.8%
F1 分数 (F1-Score)	90.3%

跨语言对比

模型	语言	F1 分数
本模型 (XLM-RoBERTa)	吉尔吉斯语	90.3%
Alam et al. (2020)	英语 (干净)	87.0%
Alam et al. (2020)	孟加拉语	69.5%
Nagy et al. (2021)	匈牙利语	~82.0%

该模型在常见标点符号（句号、逗号）上表现出色，但由于类别不平衡，在罕见标点符号（问号、感叹号）上准确率较低。

模型架构

参数	值
基础模型	XLM-RoBERTa-base
参数量	~270M
Transformer 层数	12
隐藏维度	768
注意力头数	12
导出格式	ONNX

训练详情

数据集

一个历时 2 个月收集的自建 200 MB 吉尔吉斯语文本语料库：

来源	大小	描述
吉尔吉斯-土耳其玛纳斯大学图书馆	135 MB	书籍（文学、数学、物理）
吉尔吉斯语维基百科	40 MB	百科全书文章
新闻门户	25 MB	新闻文本

预处理流程： PDF → EasyOCR 文本提取 → 人工清洗 → 带标点标签的 JSON 格式化。

数据增强

针对吉尔吉斯语黏着语形态设计的专用增强技术：

回译： 吉尔吉斯语 → 英语 → 吉尔吉斯语（模拟 ASR 类错误）
词元级修改： 随机插入、删除、交换
形态变换： 保持语法正确性的格形式和词缀修改

超参数

参数	值
批大小	32
训练轮数	10
优化器	Adam
学习率	5e-5
正则化	Dropout
硬件	Google Colab TPU
训练时间	42 小时

使用方法

import onnxruntime as ort
import numpy as np

# 加载 ONNX 模型
session = ort.InferenceSession("model.onnx")

# 准备输入（参见 config.yaml 了解分词器设置）
# 模型为每个词元预测标点标签：
# O（无标点）、COMMA（逗号）、PERIOD（句号）、QUESTION（问号）、EXCLAMATION（感叹号）

# 示例推理
input_text = "бул кыргыз тилиндеги текст"
# 分词并运行推理（参见 main.py 获取完整流程）

仓库结构

├── model.onnx           # ONNX 格式的训练模型 (1.11 GB)
├── main.py              # 推理流程
├── env.py               # 环境配置
├── config.yaml          # 超参数和模型配置
├── requirements.txt     # Python 依赖
└── Files/               # 其他模型文件

预期用途

用例	描述
ASR 后处理	为吉尔吉斯语语音转文本输出恢复标点符号
文本规范化	使用正确的标点符号清洗和格式化原始吉尔吉斯语文本
NLP 预处理	提升下游任务性能（命名实体识别、机器翻译、摘要）
无障碍访问	增强自动生成的吉尔吉斯语内容的可读性

局限性

罕见标点符号： 由于训练数据中的类别不平衡，问号和感叹号的准确率较低
正式文本偏差： 主要在文学/正式文本上训练；在非正式/对话文本（社交媒体、聊天）上的表现可能较差
词缀边界错误： 在复杂的黏着结构中放置标点符号偶尔会出现困难
领域特定性： 在散文类文本上表现最佳；专业领域可能需要额外微调

未来方向

与相关突厥语言（哈萨克语、乌兹别克语、土耳其语）联合训练以改善跨语言迁移
形态感知分词以替代标准 BPE
扩展包含非正式和对话吉尔吉斯语文本的数据集
与吉尔吉斯语 ASR 系统集成以实现端到端语音处理

引用

@article{uvalieva2024punctuation,
  author    = {Uvalieva, Zarina and Muhametjanova, Gulshat},
  title     = {AI-Based Punctuation Restoration using Transformer Model for Kyrgyz Language},
  year      = {2024},
  institution = {Kyrgyz-Turkish Manas University}
}

作者

Zarina Uvalieva — 专注于低资源语言 NLP 和语音技术的机器学习工程师。

🤗 HuggingFace
📧 zarina.uvalievaa@gmail.com

Zarinaaa/punctuator_model

作者 Zarinaaa

token-classification

↓ 1 ♥ 0

创建时间: 2025-01-17 17:47:22+00:00

更新时间: 2026-02-14 11:06:22+00:00

在 Hugging Face 上查看

文件 (22)

.DS_Store

.gitattributes

.gitignore

Files/.DS_Store

Files/__init__.py

Files/merged.txt

Files/tb.py

Files/telegram_bot.py

Files/test.py

Files/word.py

README.md

__pycache__/env.cpython-310.pyc

__pycache__/env.cpython-311.pyc

__pycache__/test_copy.cpython-310.pyc

__pycache__/test_copy.cpython-311.pyc

config.yaml

env.py

main.py

model.onnx ONNX

requirements.txt

sp.model

test_copy.py