ONNX 模型库
返回模型

说明文档

reazonspeech-k2-v2

本仓库fork自 https://huggingface.co/reazon-research/reazonspeech-k2-v2

reazonspeech-k2-v2 是一个自动语音识别 (ASR) 模型, 在 ReazonSpeech v2.0 语料库 上训练。

该模型提供基于 Next-gen Kaldi 的端到端日语语音识别。

模型架构

  • 基于字符的 RNN-T 模型。总参数量为 159.34M。

  • 该模型采用了一种增强的 Transformer 架构,称为 Zipformer

  • 训练配方可在 k2-fsa/icefall 获取。

注意:该模型可处理最长约 30 秒的日语音频片段。

使用方法

我们建议通过我们的 reazonspeech 库来使用此模型。

from reazonspeech.k2.asr import load_model, transcribe, audio_from_path

audio = audio_from_path("speech.wav")
model = load_model()
ret = transcribe(model, audio)
print(ret.text)

许可证

Apache 许可证 2.0

csukuangfj/reazonspeech-k2-v2

作者 csukuangfj

automatic-speech-recognition
↓ 0 ♥ 0

创建时间: 2024-08-01 09:53:23+00:00

更新时间: 2024-08-01 10:13:47+00:00

在 Hugging Face 上查看

文件 (15)

.gitattributes
README.md
decoder-epoch-99-avg-1.int8.onnx ONNX
decoder-epoch-99-avg-1.onnx ONNX
encoder-epoch-99-avg-1.int8.onnx ONNX
encoder-epoch-99-avg-1.onnx ONNX
joiner-epoch-99-avg-1.int8.onnx ONNX
joiner-epoch-99-avg-1.onnx ONNX
test_wavs/1.wav
test_wavs/2.wav
test_wavs/3.wav
test_wavs/4.wav
test_wavs/5.wav
test_wavs/transcript.txt
tokens.txt