返回模型
说明文档
NVIDIA Conformer-CTC 大模型(加泰罗尼亚语)- ONNX
这是 nvidia/stt_ca_conformer_ctc_large 的 ONNX 导出版本,用于 sherpa-onnx 和其他 ONNX 运行时。
原始模型将语音转录为小写加泰罗尼亚语字母表,包括空格、连字符和撇号,并在 Mozilla Common Voice 9.0 的约 1023 小时加泰罗尼亚语语音数据上进行了训练。
文件
| 文件 | 描述 | 大小 |
|---|---|---|
model.onnx |
ONNX 模型(Conformer 编码器 + CTC 解码器) | ~507 MB |
tokens.txt |
BPE 词汇表(128 个标记 + 空白) | 933 bytes |
sherpa-onnx 使用方法
Python
import sherpa_onnx
import soundfile as sf
recognizer = sherpa_onnx.OfflineRecognizer.from_nemo_ctc(
model=\"model.onnx\",
tokens=\"tokens.txt\",
num_threads=4,
)
audio, sample_rate = sf.read(\"audio.wav\")
stream = recognizer.create_stream()
stream.accept_waveform(sample_rate, audio)
recognizer.decode_stream(stream)
print(stream.result.text)
C++ / Rust / 其他语言
请参阅 sherpa-onnx 文档 了解 C++、C、Rust、Go、Swift、Kotlin 等语言的绑定。
使用 Gibberish Desktop
此模型被 Gibberish 原生支持——这是一个本地的实时语音转文字应用程序。只需从模型列表中选择"Conformer CTC (Catalan)"。
ONNX 导出
此模型使用以下脚本导出:
import nemo.collections.asr as nemo_asr
from huggingface_hub import hf_hub_download
# 下载原始 NeMo 模型
nemo_path = hf_hub_download(
repo_id=\"nvidia/stt_ca_conformer_ctc_large\",
filename=\"stt_ca_conformer_ctc_large.nemo\"
)
# 加载并导出
m = nemo_asr.models.EncDecCTCModel.restore_from(nemo_path)
m.eval()
# 导出标记(BPE 词汇表)
vocab_size = m.tokenizer.vocab_size
with open(\"tokens.txt\", \"w\", encoding=\"utf-8\") as f:
for i in range(vocab_size):
token = m.tokenizer.ids_to_tokens([i])[0]
f.write(f\"{token} {i}\n\")
f.write(f\"<blk> {vocab_size}\n\")
# 导出 ONNX 模型
m.export(\"model.onnx\")
要求
nemo_toolkit[asr]torch<2.6(用于 ONNX 导出兼容性)onnxhuggingface_hub
模型架构
Conformer-CTC 是 Conformer 模型 [1] 的非自回归变体,用于自动语音识别,使用 CTC 损失/解码。该架构结合了:
- 卷积模块用于局部特征提取
- 自注意力模块用于全局上下文建模
- CTC 解码器用于非自回归转录
有关完整的架构详细信息,请参阅 NeMo 文档。
输入/输出
输入
- 16 kHz 单声道音频(推荐 WAV 格式)
- 音频在内部转换为 80 维梅尔滤波器组特征
输出
- 小写加泰罗尼亚语的转录文本
- 支持的字符:
' - a b c d e f g h i j k l m n o p q r s t u v w x y z · à á ç è é í ï ñ ò ó ú ü ı – —
性能
| 分词器 | 词汇表大小 | 开发集 WER | 测试集 WER | 数据集 |
|---|---|---|---|---|
| SentencePiece Unigram | 128 | 4.70% | 4.27% | MCV-9.0 |
局限性
- 对于包含训练数据中未出现的技术术语或方言的语音,性能可能会下降
- 对于口音较重的语音,表现可能较差
- 针对 16 kHz 的清晰、近场麦克风音频进行了优化
许可证
此模型在 CC-BY-4.0 下发布,遵循原始 NVIDIA 模型许可证。
参考文献
- Conformer: Convolution-augmented Transformer for Speech Recognition
- Google SentencePiece Tokenizer
- NVIDIA NeMo Toolkit
- sherpa-onnx
致谢
- 原始模型由 NVIDIA NeMo 提供
- ONNX 转换用于 Gibberish
mpuig/stt_ca_conformer_ctc_large_onnx
作者 mpuig
automatic-speech-recognition
sherpa-onnx
↓ 0
♥ 0
创建时间: 2025-12-25 18:37:46+00:00
更新时间: 2025-12-25 19:01:38+00:00
在 Hugging Face 上查看文件 (5)
.gitattributes
README.md
export_nemo_ctc.py
model.onnx
ONNX
tokens.txt