ONNX 模型库
返回模型

说明文档

CosyVoice2 ONNX 模型 (flow & hift)

本仓库提供 CosyVoice2 部分模块的 ONNX 格式模型,包括:

  • flow_fp32.onnx (全精度,flow 模块)
  • flow_fp16.onnx (半精度,flow 模块)
  • hift.onnx (全精度,hift 模块)
  • flow_hift_combined_fp32.onnx (flow_fp32 和 hift 的组合模型)
  • flow_hift_combined_fp16.onnx (flow_fp16 和 hift 的组合模型)

2025-11-09 更新:修复了 flow 模块在半精度下 /decoder/estimator 子模块中的 NaN 问题。flow_fp16.onnx 已更新为完全半精度的 flow 模型。组合模型也已同步更新。

使用说明请参考 GitHub 仓库
CosyVoice2 的其他模块可从 官方 CosyVoice2 获取。
我已开源 CosyVoice2 的 ONNX 版本,包括 ONNX 所需的修改模块和转换脚本。如需了解如何进行转换,请访问 CosyVoiceForOnnx


模型输入与输出

flow_fp32.onnx / flow_fp16.onnx

  • 输入:
    • token (int64)
    • prompt_token (int32)
    • prompt_feat (float32 / float16)
    • embedding (float32 / float16)
      • 对于 flow_fp32.onnx,必须使用 float32
      • 对于 flow_fp16.onnx,必须使用 float16
  • 输出:
    • tts_mel (float32)

hift.onnx

  • 输入:
    • speech_feat (float32)
  • 输出:
    • generated_speech (float32)

flow_hift_combined_fp32.onnx / flow_hift_combined_fp16.onnx

  • 输入
    • token (int32)
    • prompt_token (int32)
    • prompt_feat (float32 / float16)
    • embedding (float16)
    • speed (float32, 标量,控制语速)
      • 对于 flow_hift_combined_fp32.onnx,必须使用 float32
      • 对于 flow_hift_combined_fp16.onnx,必须使用 float16
  • 输出
    • generated_speech (float32)

注意事项

  • 所有输出均为 float32。
  • 输入精度必须严格匹配模型要求。
  • 注意:在组合模型中,token 输入为 int32(而非 int64)。speed 输入是一个控制语速的 float32 标量。

致谢

原始模型来自 官方 CosyVoice2。 本仓库仅提供 ONNX 格式的转换和适配。


Lourdle/CosyVoice2-0.5B_ONNX

作者 Lourdle

text-to-speech
↓ 0 ♥ 1

创建时间: 2025-08-19 01:40:52+00:00

更新时间: 2025-11-09 05:53:59+00:00

在 Hugging Face 上查看

文件 (7)

.gitattributes
README.md
flow_fp16.onnx ONNX
flow_fp32.onnx ONNX
flow_hift_combined_fp16.onnx ONNX
flow_hift_combined_fp32.onnx ONNX
hift.onnx ONNX