说明文档
⚠️ 初步检查点
这是一个基于 Kristin medium 微调的 Piper TTS 模型
该模型仅在我整理的总数据(合成 + 自然)的约 30% 上进行了 5 轮训练。
<audio controls src="https://cdn-uploads.huggingface.co/production/uploads/659be8bbb0f43ed69f17e7b8/Z9hoY0Rww7NgYVDK_Gosv.wav"></audio> <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/659be8bbb0f43ed69f17e7b8/1hcqStPtTGGCZLvyNvsh3.wav"></audio> <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/659be8bbb0f43ed69f17e7b8/HTzdcRaB2VPG283zfA7W3.wav"></audio> <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/659be8bbb0f43ed69f17e7b8/8bRegOeimX1A6VCyjQUW-.wav"></audio> <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/659be8bbb0f43ed69f17e7b8/-ww0FdqtPPnTwZ2Kasl54.wav"></audio>
目前,我正在改进合成数据集,因为对其质量不满意。之后我会继续微调。
同时也在测试合成数据与自然数据的最佳配比。
初步观察显示,使用主要一种类型的数据(90%-10%)效果更好。
试图突破仅有 63 MB 模型生成音频的边界。
推理
import wave
from src.python_run.piper import PiperVoice # 如果使用 pip 安装,请从安装的包中导入
model = PiperVoice.load(\"en_US-ceylia-medium.onnx\")
text = \"I have a big plan for today. It involves fine-tuning you.\"
with wave.open(\"output.wav\", \"wb\") as output_file:
output_file.setnchannels(1)
output_file.setsampwidth(2)
output_file.setframerate(22050)
model.synthesize(text=text, wav_file=output_file, sentence_silence=0.25)
🙏 致谢
Bryce Beattie 训练了 Kristin 模型。
参考音频来自 @Jinsaryko 提供的数据集
shb777/ceylia-piper-tts
作者 shb777
创建时间: 2025-08-17 18:08:54+00:00
更新时间: 2025-08-17 18:36:57+00:00
在 Hugging Face 上查看