返回模型
说明文档
reazonspeech-k2-v2
reazonspeech-k2-v2 是一个在 ReazonSpeech v2.0 语料库 上训练的自动语音识别 (ASR) 模型。
该模型基于 Next-gen Kaldi 提供端到端的日语语音识别。
模型架构
-
基于字符的 RNN-T 模型。总参数量为 159.34M。
-
该模型采用了一种名为 Zipformer 的增强型 Transformer 架构。
-
训练配方可在 k2-fsa/icefall 获取。
请注意,该模型可以处理最长约 30 秒的日语音频片段。
使用方法
我们推荐通过我们的 reazonspeech 库来使用该模型。
from reazonspeech.k2.asr import load_model, transcribe, audio_from_path
audio = audio_from_path("speech.wav")
model = load_model()
ret = transcribe(model, audio)
print(ret.text)
许可证
reazon-research/reazonspeech-k2-v2
作者 reazon-research
automatic-speech-recognition
↓ 0
♥ 24
创建时间: 2024-07-28 04:06:05+00:00
更新时间: 2024-08-01 06:59:19+00:00
在 Hugging Face 上查看文件 (9)
.gitattributes
README.md
decoder-epoch-99-avg-1.int8.onnx
ONNX
decoder-epoch-99-avg-1.onnx
ONNX
encoder-epoch-99-avg-1.int8.onnx
ONNX
encoder-epoch-99-avg-1.onnx
ONNX
joiner-epoch-99-avg-1.int8.onnx
ONNX
joiner-epoch-99-avg-1.onnx
ONNX
tokens.txt