说明文档

NVIDIA Conformer-CTC 大模型（加泰罗尼亚语）- ONNX

| | | | |

这是 nvidia/stt_ca_conformer_ctc_large 的 ONNX 导出版本，用于 sherpa-onnx 和其他 ONNX 运行时。

原始模型将语音转录为小写加泰罗尼亚语字母表，包括空格、连字符和撇号，并在 Mozilla Common Voice 9.0 的约 1023 小时加泰罗尼亚语语音数据上进行了训练。

文件

文件	描述	大小
`model.onnx`	ONNX 模型（Conformer 编码器 + CTC 解码器）	~507 MB
`tokens.txt`	BPE 词汇表（128 个标记 + 空白）	933 bytes

sherpa-onnx 使用方法

Python

import sherpa_onnx
import soundfile as sf

recognizer = sherpa_onnx.OfflineRecognizer.from_nemo_ctc(
    model=\"model.onnx\",
    tokens=\"tokens.txt\",
    num_threads=4,
)

audio, sample_rate = sf.read(\"audio.wav\")
stream = recognizer.create_stream()
stream.accept_waveform(sample_rate, audio)
recognizer.decode_stream(stream)

print(stream.result.text)

C++ / Rust / 其他语言

请参阅 sherpa-onnx 文档了解 C++、C、Rust、Go、Swift、Kotlin 等语言的绑定。

使用 Gibberish Desktop

此模型被 Gibberish 原生支持——这是一个本地的实时语音转文字应用程序。只需从模型列表中选择"Conformer CTC (Catalan)"。

ONNX 导出

此模型使用以下脚本导出：

import nemo.collections.asr as nemo_asr
from huggingface_hub import hf_hub_download

# 下载原始 NeMo 模型
nemo_path = hf_hub_download(
    repo_id=\"nvidia/stt_ca_conformer_ctc_large\",
    filename=\"stt_ca_conformer_ctc_large.nemo\"
)

# 加载并导出
m = nemo_asr.models.EncDecCTCModel.restore_from(nemo_path)
m.eval()

# 导出标记（BPE 词汇表）
vocab_size = m.tokenizer.vocab_size
with open(\"tokens.txt\", \"w\", encoding=\"utf-8\") as f:
    for i in range(vocab_size):
        token = m.tokenizer.ids_to_tokens([i])[0]
        f.write(f\"{token} {i}\n\")
    f.write(f\"<blk> {vocab_size}\n\")

# 导出 ONNX 模型
m.export(\"model.onnx\")

要求

nemo_toolkit[asr]
torch<2.6（用于 ONNX 导出兼容性）
onnx
huggingface_hub

模型架构

Conformer-CTC 是 Conformer 模型 [1] 的非自回归变体，用于自动语音识别，使用 CTC 损失/解码。该架构结合了：

卷积模块用于局部特征提取
自注意力模块用于全局上下文建模
CTC 解码器用于非自回归转录

有关完整的架构详细信息，请参阅 NeMo 文档。

输入/输出

输入

16 kHz 单声道音频（推荐 WAV 格式）
音频在内部转换为 80 维梅尔滤波器组特征

输出

小写加泰罗尼亚语的转录文本
支持的字符：' - a b c d e f g h i j k l m n o p q r s t u v w x y z · à á ç è é í ï ñ ò ó ú ü ı – —

性能

分词器	词汇表大小	开发集 WER	测试集 WER	数据集
SentencePiece Unigram	128	4.70%	4.27%	MCV-9.0

局限性

对于包含训练数据中未出现的技术术语或方言的语音，性能可能会下降
对于口音较重的语音，表现可能较差
针对 16 kHz 的清晰、近场麦克风音频进行了优化

许可证

此模型在 CC-BY-4.0 下发布，遵循原始 NVIDIA 模型许可证。

参考文献

致谢

原始模型由 NVIDIA NeMo 提供
ONNX 转换用于 Gibberish

mpuig/stt_ca_conformer_ctc_large_onnx

作者 mpuig

automatic-speech-recognition sherpa-onnx

↓ 0 ♥ 0

创建时间: 2025-12-25 18:37:46+00:00

更新时间: 2025-12-25 19:01:38+00:00

在 Hugging Face 上查看

文件 (5)

.gitattributes

README.md

export_nemo_ctc.py

model.onnx ONNX

tokens.txt