说明文档

⚠️ 初步检查点

这是一个基于 Kristin medium 微调的 Piper TTS 模型

该模型仅在我整理的总数据（合成 + 自然）的约 30% 上进行了 5 轮训练。

目前，我正在改进合成数据集，因为对其质量不满意。之后我会继续微调。

同时也在测试合成数据与自然数据的最佳配比。

初步观察显示，使用主要一种类型的数据（90%-10%）效果更好。

试图突破仅有 63 MB 模型生成音频的边界。

推理

import wave

from src.python_run.piper import PiperVoice # 如果使用 pip 安装，请从安装的包中导入

model = PiperVoice.load(\"en_US-ceylia-medium.onnx\")

text = \"I have a big plan for today. It involves fine-tuning you.\"

with wave.open(\"output.wav\", \"wb\") as output_file:
    output_file.setnchannels(1)
    output_file.setsampwidth(2)
    output_file.setframerate(22050)
    model.synthesize(text=text, wav_file=output_file, sentence_silence=0.25)

🙏 致谢

Bryce Beattie 训练了 Kristin 模型。

参考音频来自 @Jinsaryko 提供的数据集

Piper TTS

shb777/ceylia-piper-tts

作者 shb777

text-to-speech onnx

↓ 0 ♥ 1

创建时间: 2025-08-17 18:08:54+00:00

更新时间: 2025-08-17 18:36:57+00:00

在 Hugging Face 上查看

文件 (4)

.gitattributes

README.md

en_US-ceylia-medium.onnx ONNX

en_US-ceylia-medium.onnx.json