返回模型

说明文档

使用LJSpeech训练的Piper模型

本仓库包含使用 LJSpeech数据集训练的Piper TTS模型。该模型为 medium质量，生成英语语音。

模型详情

语音: 基于LJSpeech数据集的单个女性说话者。
语言: 英语 (en)
质量: Medium (基于Piper的质量设置)
采样率: 22050 Hz (Piper medium质量常用)
基础模型架构: VITS (Piper基于VITS)

训练数据

数据集: LJSpeech
描述: 由13,100个短音频片段组成的公共领域数据集，由单个说话者朗读了7本非虚构书籍的段落。包含约24小时的音频数据。
预处理: 数据集使用Piper附带的脚本进行了预处理。

训练流程

该模型使用 Rhasspy Piper仓库中的 piper_train 脚本进行训练。

主要训练参数:

以下是训练时使用的命令和主要参数。

quality: medium
precision: 32 (单精度浮点数)
max_epochs: 500
batch_size: 16 (单GPU时)
accelerator: gpu
devices: 1
validation_split: 0.05 (5%的数据用于验证)
checkpoint_epochs: 1 (每个epoch保存一次检查点)

训练命令示例:

# TRAINING_DATA_DIR 请替换为预处理后数据集的路径
# 例如: TRAINING_DATA_DIR="/data/piper_ljspeech_training"

python -m piper_train \
  --dataset-dir ${TRAINING_DATA_DIR} \
  --accelerator 'gpu' \
  --devices 1 \
  --batch-size 16 \
  --validation-split 0.05 \
  --num-test-examples 10 \
  --max_epochs 500 \
  --checkpoint-epochs 1 \
  --precision 32 \
  --quality medium

训练环境 (大致环境):

根据故障排除结果，训练在以下环境中执行。

Python: 3.11.8
PyTorch: ~2.5.1 (CUDA 12.1 支持版本)
PyTorch Lightning: ~1.7.7
TorchMetrics: ~1.5.2
NumPy: ~1.26.4
Piper training scripts (piper_train module, version ~1.0.0) from rhasspy/piper

使用方法

该模型通过Piper命令行工具使用。首先，需要将训练过程中得到的检查点 (.ckpt 文件) 导出为ONNX格式。

1. 导出为ONNX格式

假设训练好的检查点位于 /path/to/your/checkpoints/epoch=499-step=XXXXX.ckpt (请替换为实际训练得到的最终检查点路径)，训练数据目录 (包含 config.json) 位于 /data/piper_ljspeech_training/。

# 请替换为实际路径
CHECKPOINT_FILE="/data/piper_ljspeech_training/lightning_logs/version_X/checkpoints/epoch=499-step=XXXXX.ckpt" # 例如: version_1/checkpoints/epoch=499-step=519000.ckpt
TRAINING_CONFIG_JSON="/data/piper_ljspeech_training/config.json" # 预处理时的 config.json
EXPORT_DIR="exported_piper_model" # ONNX模型输出目录名称 (任意)
ONNX_MODEL_NAME="ljspeech_piper_medium_500epochs" # ONNX模型文件名 (任意)

mkdir -p ${EXPORT_DIR}

python3 -m piper_train.export_onnx \
  ${CHECKPOINT_FILE} \
  ${EXPORT_DIR}/${ONNX_MODEL_NAME}.onnx

cp ${TRAINING_CONFIG_JSON} \
  ${EXPORT_DIR}/${ONNX_MODEL_NAME}.onnx.json

ayousanz/piper-ljspeech

作者 ayousanz

text-to-speech

↓ 0 ♥ 0

创建时间: 2025-05-26 07:09:48+00:00

更新时间: 2025-05-26 16:07:00+00:00

在 Hugging Face 上查看

文件 (8)

.gitattributes

README.md

my_ljspeech_piper_voice.onnx ONNX

my_ljspeech_piper_voice.onnx.json

requirements.txt

version_1/checkpoints/epoch=499-step=519000.ckpt

version_1/events.out.tfevents.1747996302.piper-0.7423.0

version_1/hparams.yaml