返回模型
说明文档
reazonspeech-k2-v2
本仓库fork自 https://huggingface.co/reazon-research/reazonspeech-k2-v2
reazonspeech-k2-v2 是一个自动语音识别 (ASR) 模型,
在 ReazonSpeech v2.0 语料库 上训练。
该模型提供基于 Next-gen Kaldi 的端到端日语语音识别。
模型架构
-
基于字符的 RNN-T 模型。总参数量为 159.34M。
-
该模型采用了一种增强的 Transformer 架构,称为 Zipformer。
-
训练配方可在 k2-fsa/icefall 获取。
注意:该模型可处理最长约 30 秒的日语音频片段。
使用方法
我们建议通过我们的 reazonspeech 库来使用此模型。
from reazonspeech.k2.asr import load_model, transcribe, audio_from_path
audio = audio_from_path("speech.wav")
model = load_model()
ret = transcribe(model, audio)
print(ret.text)
许可证
csukuangfj/reazonspeech-k2-v2
作者 csukuangfj
automatic-speech-recognition
↓ 0
♥ 0
创建时间: 2024-08-01 09:53:23+00:00
更新时间: 2024-08-01 10:13:47+00:00
在 Hugging Face 上查看文件 (15)
.gitattributes
README.md
decoder-epoch-99-avg-1.int8.onnx
ONNX
decoder-epoch-99-avg-1.onnx
ONNX
encoder-epoch-99-avg-1.int8.onnx
ONNX
encoder-epoch-99-avg-1.onnx
ONNX
joiner-epoch-99-avg-1.int8.onnx
ONNX
joiner-epoch-99-avg-1.onnx
ONNX
test_wavs/1.wav
test_wavs/2.wav
test_wavs/3.wav
test_wavs/4.wav
test_wavs/5.wav
test_wavs/transcript.txt
tokens.txt