ONNX 模型库
返回模型

说明文档

reazonspeech-k2-v2

reazonspeech-k2-v2 是一个在 ReazonSpeech v2.0 语料库 上训练的自动语音识别 (ASR) 模型。

该模型基于 Next-gen Kaldi 提供端到端的日语语音识别。

模型架构

  • 基于字符的 RNN-T 模型。总参数量为 159.34M。

  • 该模型采用了一种名为 Zipformer 的增强型 Transformer 架构。

  • 训练配方可在 k2-fsa/icefall 获取。

请注意,该模型可以处理最长约 30 秒的日语音频片段。

使用方法

我们推荐通过我们的 reazonspeech 库来使用该模型。

from reazonspeech.k2.asr import load_model, transcribe, audio_from_path

audio = audio_from_path("speech.wav")
model = load_model()
ret = transcribe(model, audio)
print(ret.text)

许可证

Apache 许可证 2.0

reazon-research/reazonspeech-k2-v2

作者 reazon-research

automatic-speech-recognition
↓ 0 ♥ 24

创建时间: 2024-07-28 04:06:05+00:00

更新时间: 2024-08-01 06:59:19+00:00

在 Hugging Face 上查看

文件 (9)

.gitattributes
README.md
decoder-epoch-99-avg-1.int8.onnx ONNX
decoder-epoch-99-avg-1.onnx ONNX
encoder-epoch-99-avg-1.int8.onnx ONNX
encoder-epoch-99-avg-1.onnx ONNX
joiner-epoch-99-avg-1.int8.onnx ONNX
joiner-epoch-99-avg-1.onnx ONNX
tokens.txt