ONNX 模型库
返回模型

说明文档

⚠️ 初步检查点

这是一个基于 Kristin medium 微调的 Piper TTS 模型

该模型仅在我整理的总数据(合成 + 自然)的约 30% 上进行了 5 轮训练。

<audio controls src="https://cdn-uploads.huggingface.co/production/uploads/659be8bbb0f43ed69f17e7b8/Z9hoY0Rww7NgYVDK_Gosv.wav"></audio> <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/659be8bbb0f43ed69f17e7b8/1hcqStPtTGGCZLvyNvsh3.wav"></audio> <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/659be8bbb0f43ed69f17e7b8/HTzdcRaB2VPG283zfA7W3.wav"></audio> <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/659be8bbb0f43ed69f17e7b8/8bRegOeimX1A6VCyjQUW-.wav"></audio> <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/659be8bbb0f43ed69f17e7b8/-ww0FdqtPPnTwZ2Kasl54.wav"></audio>

目前,我正在改进合成数据集,因为对其质量不满意。之后我会继续微调。

同时也在测试合成数据与自然数据的最佳配比。

初步观察显示,使用主要一种类型的数据(90%-10%)效果更好。

试图突破仅有 63 MB 模型生成音频的边界。

推理

import wave

from src.python_run.piper import PiperVoice # 如果使用 pip 安装,请从安装的包中导入

model = PiperVoice.load(\"en_US-ceylia-medium.onnx\")

text = \"I have a big plan for today. It involves fine-tuning you.\"

with wave.open(\"output.wav\", \"wb\") as output_file:
    output_file.setnchannels(1)
    output_file.setsampwidth(2)
    output_file.setframerate(22050)
    model.synthesize(text=text, wav_file=output_file, sentence_silence=0.25)

🙏 致谢

Bryce Beattie 训练了 Kristin 模型。

参考音频来自 @Jinsaryko 提供的数据集

Piper TTS

shb777/ceylia-piper-tts

作者 shb777

text-to-speech onnx
↓ 0 ♥ 1

创建时间: 2025-08-17 18:08:54+00:00

更新时间: 2025-08-17 18:36:57+00:00

在 Hugging Face 上查看

文件 (4)

.gitattributes
README.md
en_US-ceylia-medium.onnx ONNX
en_US-ceylia-medium.onnx.json