返回模型
说明文档
使用LJSpeech训练的Piper模型
本仓库包含使用 LJSpeech数据集 训练的Piper TTS模型。 该模型为 medium质量,生成英语语音。
模型详情
- 语音: 基于LJSpeech数据集的单个女性说话者。
- 语言: 英语 (en)
- 质量: Medium (基于Piper的质量设置)
- 采样率: 22050 Hz (Piper medium质量常用)
- 基础模型架构: VITS (Piper基于VITS)
训练数据
- 数据集: LJSpeech
- 描述: 由13,100个短音频片段组成的公共领域数据集,由单个说话者朗读了7本非虚构书籍的段落。包含约24小时的音频数据。
- 预处理: 数据集使用Piper附带的脚本进行了预处理。
训练流程
该模型使用 Rhasspy Piper仓库 中的 piper_train 脚本进行训练。
主要训练参数:
以下是训练时使用的命令和主要参数。
quality:mediumprecision:32(单精度浮点数)max_epochs:500batch_size:16(单GPU时)accelerator:gpudevices:1validation_split:0.05(5%的数据用于验证)checkpoint_epochs:1(每个epoch保存一次检查点)
训练命令示例:
# TRAINING_DATA_DIR 请替换为预处理后数据集的路径
# 例如: TRAINING_DATA_DIR="/data/piper_ljspeech_training"
python -m piper_train \
--dataset-dir ${TRAINING_DATA_DIR} \
--accelerator 'gpu' \
--devices 1 \
--batch-size 16 \
--validation-split 0.05 \
--num-test-examples 10 \
--max_epochs 500 \
--checkpoint-epochs 1 \
--precision 32 \
--quality medium
训练环境 (大致环境):
根据故障排除结果,训练在以下环境中执行。
- Python: 3.11.8
- PyTorch: ~2.5.1 (CUDA 12.1 支持版本)
- PyTorch Lightning: ~1.7.7
- TorchMetrics: ~1.5.2
- NumPy: ~1.26.4
- Piper training scripts (
piper_trainmodule, version ~1.0.0) fromrhasspy/piper
使用方法
该模型通过Piper命令行工具使用。首先,需要将训练过程中得到的检查点 (.ckpt 文件) 导出为ONNX格式。
1. 导出为ONNX格式
假设训练好的检查点位于 /path/to/your/checkpoints/epoch=499-step=XXXXX.ckpt (请替换为实际训练得到的最终检查点路径),训练数据目录 (包含 config.json) 位于 /data/piper_ljspeech_training/。
# 请替换为实际路径
CHECKPOINT_FILE="/data/piper_ljspeech_training/lightning_logs/version_X/checkpoints/epoch=499-step=XXXXX.ckpt" # 例如: version_1/checkpoints/epoch=499-step=519000.ckpt
TRAINING_CONFIG_JSON="/data/piper_ljspeech_training/config.json" # 预处理时的 config.json
EXPORT_DIR="exported_piper_model" # ONNX模型输出目录名称 (任意)
ONNX_MODEL_NAME="ljspeech_piper_medium_500epochs" # ONNX模型文件名 (任意)
mkdir -p ${EXPORT_DIR}
python3 -m piper_train.export_onnx \
${CHECKPOINT_FILE} \
${EXPORT_DIR}/${ONNX_MODEL_NAME}.onnx
cp ${TRAINING_CONFIG_JSON} \
${EXPORT_DIR}/${ONNX_MODEL_NAME}.onnx.json
ayousanz/piper-ljspeech
作者 ayousanz
text-to-speech
↓ 0
♥ 0
创建时间: 2025-05-26 07:09:48+00:00
更新时间: 2025-05-26 16:07:00+00:00
在 Hugging Face 上查看文件 (8)
.gitattributes
README.md
my_ljspeech_piper_voice.onnx
ONNX
my_ljspeech_piper_voice.onnx.json
requirements.txt
version_1/checkpoints/epoch=499-step=519000.ckpt
version_1/events.out.tfevents.1747996302.piper-0.7423.0
version_1/hparams.yaml