返回模型
说明文档
CosyVoice2 ONNX 模型 (flow & hift)
本仓库提供 CosyVoice2 部分模块的 ONNX 格式模型,包括:
flow_fp32.onnx(全精度,flow 模块)flow_fp16.onnx(半精度,flow 模块)hift.onnx(全精度,hift 模块)flow_hift_combined_fp32.onnx(flow_fp32 和 hift 的组合模型)flow_hift_combined_fp16.onnx(flow_fp16 和 hift 的组合模型)
2025-11-09 更新:修复了 flow 模块在半精度下 /decoder/estimator 子模块中的 NaN 问题。flow_fp16.onnx 已更新为完全半精度的 flow 模型。组合模型也已同步更新。
使用说明请参考 GitHub 仓库。
CosyVoice2 的其他模块可从 官方 CosyVoice2 获取。
我已开源 CosyVoice2 的 ONNX 版本,包括 ONNX 所需的修改模块和转换脚本。如需了解如何进行转换,请访问 CosyVoiceForOnnx。
模型输入与输出
flow_fp32.onnx / flow_fp16.onnx
- 输入:
token(int64)prompt_token(int32)prompt_feat(float32 / float16)embedding(float32 / float16)- 对于
flow_fp32.onnx,必须使用 float32 - 对于
flow_fp16.onnx,必须使用 float16
- 对于
- 输出:
tts_mel(float32)
hift.onnx
- 输入:
speech_feat(float32)
- 输出:
generated_speech(float32)
flow_hift_combined_fp32.onnx / flow_hift_combined_fp16.onnx
- 输入
token(int32)prompt_token(int32)prompt_feat(float32 / float16)embedding(float16)speed(float32, 标量,控制语速)- 对于
flow_hift_combined_fp32.onnx,必须使用 float32 - 对于
flow_hift_combined_fp16.onnx,必须使用 float16
- 对于
- 输出
generated_speech(float32)
注意事项
- 所有输出均为 float32。
- 输入精度必须严格匹配模型要求。
- 注意:在组合模型中,
token输入为 int32(而非 int64)。speed输入是一个控制语速的 float32 标量。
致谢
原始模型来自 官方 CosyVoice2。 本仓库仅提供 ONNX 格式的转换和适配。
Lourdle/CosyVoice2-0.5B_ONNX
作者 Lourdle
text-to-speech
↓ 0
♥ 1
创建时间: 2025-08-19 01:40:52+00:00
更新时间: 2025-11-09 05:53:59+00:00
在 Hugging Face 上查看文件 (7)
.gitattributes
README.md
flow_fp16.onnx
ONNX
flow_fp32.onnx
ONNX
flow_hift_combined_fp16.onnx
ONNX
flow_hift_combined_fp32.onnx
ONNX
hift.onnx
ONNX