返回模型
说明文档
吉尔吉斯语标点恢复模型 — XLM-RoBERTa
首个针对吉尔吉斯语的标点恢复模型,实现了 94.1% 的精确率 和 90.3% 的 F1 分数 — 超越了其他低资源语言的基准测试。
📄 发表研究: "AI-Based Punctuation Restoration using Transformer Model for Kyrgyz Language" — Uvalieva Z., Muhametjanova G. (SCOPUS 索引)
亮点
- 🏆 F1 分数:90.3% — 优于同类低资源语言模型
- 🌍 同类首创 — 专为吉尔吉斯语(突厥语系,约 700 万使用者)设计
- ⚡ ONNX 格式 — 针对跨框架快速推理进行优化
- 🎙️ ASR 后处理 — 旨在恢复语音转文本输出中的标点符号
性能
| 指标 | 分数 |
|---|---|
| 精确率 | 94.1% |
| 召回率 | 86.8% |
| F1 分数 (F1-Score) | 90.3% |
跨语言对比
| 模型 | 语言 | F1 分数 |
|---|---|---|
| 本模型 (XLM-RoBERTa) | 吉尔吉斯语 | 90.3% |
| Alam et al. (2020) | 英语 (干净) | 87.0% |
| Alam et al. (2020) | 孟加拉语 | 69.5% |
| Nagy et al. (2021) | 匈牙利语 | ~82.0% |
该模型在常见标点符号(句号、逗号)上表现出色,但由于类别不平衡,在罕见标点符号(问号、感叹号)上准确率较低。
模型架构
| 参数 | 值 |
|---|---|
| 基础模型 | XLM-RoBERTa-base |
| 参数量 | ~270M |
| Transformer 层数 | 12 |
| 隐藏维度 | 768 |
| 注意力头数 | 12 |
| 导出格式 | ONNX |
训练详情
数据集
一个历时 2 个月收集的自建 200 MB 吉尔吉斯语文本语料库:
| 来源 | 大小 | 描述 |
|---|---|---|
| 吉尔吉斯-土耳其玛纳斯大学图书馆 | 135 MB | 书籍(文学、数学、物理) |
| 吉尔吉斯语维基百科 | 40 MB | 百科全书文章 |
| 新闻门户 | 25 MB | 新闻文本 |
预处理流程: PDF → EasyOCR 文本提取 → 人工清洗 → 带标点标签的 JSON 格式化。
数据增强
针对吉尔吉斯语黏着语形态设计的专用增强技术:
- 回译: 吉尔吉斯语 → 英语 → 吉尔吉斯语(模拟 ASR 类错误)
- 词元级修改: 随机插入、删除、交换
- 形态变换: 保持语法正确性的格形式和词缀修改
超参数
| 参数 | 值 |
|---|---|
| 批大小 | 32 |
| 训练轮数 | 10 |
| 优化器 | Adam |
| 学习率 | 5e-5 |
| 正则化 | Dropout |
| 硬件 | Google Colab TPU |
| 训练时间 | 42 小时 |
使用方法
import onnxruntime as ort
import numpy as np
# 加载 ONNX 模型
session = ort.InferenceSession("model.onnx")
# 准备输入(参见 config.yaml 了解分词器设置)
# 模型为每个词元预测标点标签:
# O(无标点)、COMMA(逗号)、PERIOD(句号)、QUESTION(问号)、EXCLAMATION(感叹号)
# 示例推理
input_text = "бул кыргыз тилиндеги текст"
# 分词并运行推理(参见 main.py 获取完整流程)
仓库结构
├── model.onnx # ONNX 格式的训练模型 (1.11 GB)
├── main.py # 推理流程
├── env.py # 环境配置
├── config.yaml # 超参数和模型配置
├── requirements.txt # Python 依赖
└── Files/ # 其他模型文件
预期用途
| 用例 | 描述 |
|---|---|
| ASR 后处理 | 为吉尔吉斯语语音转文本输出恢复标点符号 |
| 文本规范化 | 使用正确的标点符号清洗和格式化原始吉尔吉斯语文本 |
| NLP 预处理 | 提升下游任务性能(命名实体识别、机器翻译、摘要) |
| 无障碍访问 | 增强自动生成的吉尔吉斯语内容的可读性 |
局限性
- 罕见标点符号: 由于训练数据中的类别不平衡,问号和感叹号的准确率较低
- 正式文本偏差: 主要在文学/正式文本上训练;在非正式/对话文本(社交媒体、聊天)上的表现可能较差
- 词缀边界错误: 在复杂的黏着结构中放置标点符号偶尔会出现困难
- 领域特定性: 在散文类文本上表现最佳;专业领域可能需要额外微调
未来方向
- 与相关突厥语言(哈萨克语、乌兹别克语、土耳其语)联合训练以改善跨语言迁移
- 形态感知分词以替代标准 BPE
- 扩展包含非正式和对话吉尔吉斯语文本的数据集
- 与吉尔吉斯语 ASR 系统集成以实现端到端语音处理
引用
@article{uvalieva2024punctuation,
author = {Uvalieva, Zarina and Muhametjanova, Gulshat},
title = {AI-Based Punctuation Restoration using Transformer Model for Kyrgyz Language},
year = {2024},
institution = {Kyrgyz-Turkish Manas University}
}
作者
Zarina Uvalieva — 专注于低资源语言 NLP 和语音技术的机器学习工程师。
- 🤗 HuggingFace
- 📧 zarina.uvalievaa@gmail.com
Zarinaaa/punctuator_model
作者 Zarinaaa
token-classification
↓ 1
♥ 0
创建时间: 2025-01-17 17:47:22+00:00
更新时间: 2026-02-14 11:06:22+00:00
在 Hugging Face 上查看文件 (22)
.DS_Store
.gitattributes
.gitignore
Files/.DS_Store
Files/__init__.py
Files/merged.txt
Files/tb.py
Files/telegram_bot.py
Files/test.py
Files/word.py
README.md
__pycache__/env.cpython-310.pyc
__pycache__/env.cpython-311.pyc
__pycache__/test_copy.cpython-310.pyc
__pycache__/test_copy.cpython-311.pyc
config.yaml
env.py
main.py
model.onnx
ONNX
requirements.txt
sp.model
test_copy.py