返回模型

说明文档

reazonspeech-k2-v2

本仓库fork自 https://huggingface.co/reazon-research/reazonspeech-k2-v2

reazonspeech-k2-v2 是一个自动语音识别 (ASR) 模型，在 ReazonSpeech v2.0 语料库上训练。

该模型提供基于 Next-gen Kaldi 的端到端日语语音识别。

模型架构

基于字符的 RNN-T 模型。总参数量为 159.34M。
该模型采用了一种增强的 Transformer 架构，称为 Zipformer。
训练配方可在 k2-fsa/icefall 获取。

注意：该模型可处理最长约 30 秒的日语音频片段。

使用方法

我们建议通过我们的 reazonspeech 库来使用此模型。

from reazonspeech.k2.asr import load_model, transcribe, audio_from_path

audio = audio_from_path("speech.wav")
model = load_model()
ret = transcribe(model, audio)
print(ret.text)

许可证

Apache 许可证 2.0

csukuangfj/reazonspeech-k2-v2

作者 csukuangfj

automatic-speech-recognition

↓ 0 ♥ 0

创建时间: 2024-08-01 09:53:23+00:00

更新时间: 2024-08-01 10:13:47+00:00

在 Hugging Face 上查看

文件 (15)

.gitattributes

README.md

decoder-epoch-99-avg-1.int8.onnx ONNX

decoder-epoch-99-avg-1.onnx ONNX

encoder-epoch-99-avg-1.int8.onnx ONNX

encoder-epoch-99-avg-1.onnx ONNX

joiner-epoch-99-avg-1.int8.onnx ONNX

joiner-epoch-99-avg-1.onnx ONNX

test_wavs/1.wav

test_wavs/2.wav

test_wavs/3.wav

test_wavs/4.wav

test_wavs/5.wav

test_wavs/transcript.txt

tokens.txt