ONNX 模型库
返回模型

说明文档

NVIDIA Conformer-CTC 大模型(加泰罗尼亚语)- ONNX

| 模型架构 | 模型大小 | 语言 | 格式 |

这是 nvidia/stt_ca_conformer_ctc_largeONNX 导出版本,用于 sherpa-onnx 和其他 ONNX 运行时。

原始模型将语音转录为小写加泰罗尼亚语字母表,包括空格、连字符和撇号,并在 Mozilla Common Voice 9.0 的约 1023 小时加泰罗尼亚语语音数据上进行了训练。

文件

文件 描述 大小
model.onnx ONNX 模型(Conformer 编码器 + CTC 解码器) ~507 MB
tokens.txt BPE 词汇表(128 个标记 + 空白) 933 bytes

sherpa-onnx 使用方法

Python

import sherpa_onnx
import soundfile as sf

recognizer = sherpa_onnx.OfflineRecognizer.from_nemo_ctc(
    model=\"model.onnx\",
    tokens=\"tokens.txt\",
    num_threads=4,
)

audio, sample_rate = sf.read(\"audio.wav\")
stream = recognizer.create_stream()
stream.accept_waveform(sample_rate, audio)
recognizer.decode_stream(stream)

print(stream.result.text)

C++ / Rust / 其他语言

请参阅 sherpa-onnx 文档 了解 C++、C、Rust、Go、Swift、Kotlin 等语言的绑定。

使用 Gibberish Desktop

此模型被 Gibberish 原生支持——这是一个本地的实时语音转文字应用程序。只需从模型列表中选择"Conformer CTC (Catalan)"。

ONNX 导出

此模型使用以下脚本导出:

import nemo.collections.asr as nemo_asr
from huggingface_hub import hf_hub_download

# 下载原始 NeMo 模型
nemo_path = hf_hub_download(
    repo_id=\"nvidia/stt_ca_conformer_ctc_large\",
    filename=\"stt_ca_conformer_ctc_large.nemo\"
)

# 加载并导出
m = nemo_asr.models.EncDecCTCModel.restore_from(nemo_path)
m.eval()

# 导出标记(BPE 词汇表)
vocab_size = m.tokenizer.vocab_size
with open(\"tokens.txt\", \"w\", encoding=\"utf-8\") as f:
    for i in range(vocab_size):
        token = m.tokenizer.ids_to_tokens([i])[0]
        f.write(f\"{token} {i}\n\")
    f.write(f\"<blk> {vocab_size}\n\")

# 导出 ONNX 模型
m.export(\"model.onnx\")

要求

  • nemo_toolkit[asr]
  • torch<2.6(用于 ONNX 导出兼容性)
  • onnx
  • huggingface_hub

模型架构

Conformer-CTC 是 Conformer 模型 [1] 的非自回归变体,用于自动语音识别,使用 CTC 损失/解码。该架构结合了:

  • 卷积模块用于局部特征提取
  • 自注意力模块用于全局上下文建模
  • CTC 解码器用于非自回归转录

有关完整的架构详细信息,请参阅 NeMo 文档

输入/输出

输入

  • 16 kHz 单声道音频(推荐 WAV 格式)
  • 音频在内部转换为 80 维梅尔滤波器组特征

输出

  • 小写加泰罗尼亚语的转录文本
  • 支持的字符:' - a b c d e f g h i j k l m n o p q r s t u v w x y z · à á ç è é í ï ñ ò ó ú ü ı – —

性能

分词器 词汇表大小 开发集 WER 测试集 WER 数据集
SentencePiece Unigram 128 4.70% 4.27% MCV-9.0

局限性

  • 对于包含训练数据中未出现的技术术语或方言的语音,性能可能会下降
  • 对于口音较重的语音,表现可能较差
  • 针对 16 kHz 的清晰、近场麦克风音频进行了优化

许可证

此模型在 CC-BY-4.0 下发布,遵循原始 NVIDIA 模型许可证。

参考文献

  1. Conformer: Convolution-augmented Transformer for Speech Recognition
  2. Google SentencePiece Tokenizer
  3. NVIDIA NeMo Toolkit
  4. sherpa-onnx

致谢

mpuig/stt_ca_conformer_ctc_large_onnx

作者 mpuig

automatic-speech-recognition sherpa-onnx
↓ 0 ♥ 0

创建时间: 2025-12-25 18:37:46+00:00

更新时间: 2025-12-25 19:01:38+00:00

在 Hugging Face 上查看

文件 (5)

.gitattributes
README.md
export_nemo_ctc.py
model.onnx ONNX
tokens.txt