ONNX 模型库
返回模型

说明文档

<div> <p style="margin-bottom: 0; margin-top: 0;"> <strong>请参阅<a href="https://huggingface.co/collections/unsloth/text-to-speech-tts-models-68007ab12522e96be1e02155">我们的合集</a>,查看我们所有的 TTS 模型上传。</strong> </p> <p style="margin-bottom: 0;"> <em>学习微调 TTS 模型 - <a href="https://docs.unsloth.ai/basics/text-to-speech-tts-fine-tuning">阅读我们的指南</a>。</em> </p> <p style="margin-top: 0;margin-bottom: 0;"> <em><a href="https://docs.unsloth.ai/basics/unsloth-dynamic-v2.0-gguf">Unsloth Dynamic 2.0</a> 实现了卓越的准确度,并优于其他领先的量化方案。</em> </p> <div style="display: flex; gap: 5px; align-items: center; "> <a href="https://github.com/unslothai/unsloth/"> <img src="https://github.com/unslothai/unsloth/raw/main/images/unsloth%20new%20logo.png" width="133"> </a> <a href="https://discord.gg/unsloth"> <img src="https://github.com/unslothai/unsloth/raw/main/images/Discord%20button.png" width="173"> </a> <a href="https://docs.unsloth.ai/basics/text-to-speech-tts-fine-tuning"> <img src="https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/documentation%20green%20button.png" width="143"> </a> </div> <h1 style="margin-top: 0rem;">✨ 使用 Unsloth 运行和微调 TTS 模型!</h1> </div>

Unsloth 支持 免费笔记本 性能 内存使用
Oute-TTS ▶️ 在 Colab 上开始 快 1.5 倍 减少 58%
Whisper Large V3 ▶️ 在 Colab 上开始 快 1.5 倍 减少 50%
Qwen3 (14B) ▶️ 在 Colab 上开始 快 2 倍 减少 70%
Llama 3.2 Vision (11B) ▶️ 在 Colab 上开始 快 1.8 倍 减少 50%

<div class="p-4 bg-gray-50 dark:bg-gray-800 rounded-lg shadow-sm mb-12"> <div class="text-center mb-4"> <h2 class="text-xl font-light text-gray-900 dark:text-white tracking-tight mt-0 mb-0">Oute AI</h2> <div class="flex justify-center gap-6 mt-4"> <a href="https://www.outeai.com/" target="_blank" class="flex items-center gap-1 text-gray-700 dark:text-gray-300 text-m font-medium hover:text-gray-900 dark:hover:text-white transition-colors underline"> <svg width="18" height="18" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2"> <circle cx="12" cy="12" r="10"></circle> <path d="M2 12h20M12 2a15.3 15.3 0 0 1 4 10 15.3 15.3 0 0 1-4 10 15.3 15.3 0 0 1-4-10 15.3 15.3 0 0 1 4-10z"></path> </svg> outeai.com </a> <a href="https://discord.gg/vyBM87kAmf" target="_blank" class="flex items-center gap-1 text-gray-700 dark:text-gray-300 text-m font-medium hover:text-gray-900 dark:hover:text-white transition-colors underline"> <svg width="18" height="18" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2"> <path d="M21 11.5a8.38 8.38 0 0 1-.9 3.8 8.5 8.5 0 0 1-7.6 4.7 8.38 8.38 0 0 1-3.8-.9L3 21l1.9-5.7a8.38 8.38 0 0 1-.9-3.8 8.5 8.5 0 0 1 4.7-7.6 8.38 8.38 0 0 1 3.8-.9h.5a8.48 8.48 0 0 1 8 8v.5z"></path> </svg> Discord </a> <a href="https://x.com/OuteAI" target="_blank" class="flex items-center gap-1 text-gray-700 dark:text-gray-300 text-m font-medium hover:text-gray-900 dark:hover:text-white transition-colors underline"> <svg width="18" height="18" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2"> <path d="M23 3a10.9 10.9 0 0 1-3.14 1.53 4.48 4.48 0 0 0-7.86 3v1A10.66 10.66 0 0 1 3 4s-4 9 5 13a11.64 11.64 0 0 1-7 2c9 5 20 0 20-11.5a4.5 4.5 0 0 0-.08-.83A7.72 7.72 0 0 0 23 3z"></path> </svg> @OuteAI </a> </div> </div>

<div class="grid grid-cols-3 sm:grid-cols-3 gap-2"> <a href="https://huggingface.co/OuteAI/Llama-OuteTTS-1.0-1B" target="_blank" class="bg-white dark:bg-gray-700 text-gray-800 dark:text-gray-100 text-sm font-medium py-2 px-3 rounded-md text-center hover:bg-gray-100 dark:hover:bg-gray-600 hover:border-gray-300 dark:hover:border-gray-500 border border-transparent transition-all"> Llama OuteTTS 1.0 1B </a> <a href="https://huggingface.co/OuteAI/Llama-OuteTTS-1.0-1B-GGUF" target="_blank" class="bg-white dark:bg-gray-700 text-gray-800 dark:text-gray-100 text-sm font-medium py-2 px-3 rounded-md text-center hover:bg-gray-100 dark:hover:bg-gray-600 hover:border-gray-300 dark:hover:border-gray-500 border border-transparent transition-all"> Llama OuteTTS 1.0 1B GGUF </a> <a href="https://github.com/edwko/OuteTTS" target="_blank" class="bg-white dark:bg-gray-700 text-gray-800 dark:text-gray-100 text-sm font-medium py-2 px-3 rounded-md text-center hover:bg-gray-100 dark:hover:bg-gray-600 hover:border-gray-300 dark:hover:border-gray-500 border border-transparent transition-all"> GitHub 代码库 </a> </div> </div>

[!IMPORTANT] 重要的采样注意事项

使用 OuteTTS 1.0 版本时,务必使用采样配置部分中指定的设置。

重复惩罚的实现尤为重要——该模型需要对 64 个 token 的近期窗口应用惩罚,而不是对整个上下文窗口应用。对整个上下文进行惩罚会导致模型产生损坏或低质量的输出

目前,llama.cpp 默认提供最可靠和一致的输出质量。 llama.cppEXL2 都支持这种窗口化采样方法,而 Transformers 不支持。

为了解决这一限制,我在 OuteTTS 库中为 Hugging Face Transformers 后端实现了窗口化重复惩罚,这显著提高了输出质量并解决了采样问题,提供了与 llama.cpp 相当的结果。

OuteTTS 1.0 版本

此次更新在语音合成和声音克隆方面带来了重大改进——在紧凑的尺寸下提供更强大、更准确、更友好的用户体验。

新功能

1. 提示词重构与依赖移除

  • 自动词对齐: 模型现在在内部执行词对齐。只需输入原始文本——无需预处理——模型会处理其余工作,简化您的工作流程。为获得最佳效果,请使用规范化、可读且不含换行符的文本(outetts 库中会自动应用轻度规范化)。
  • 原生多语言文本支持: 直接支持多种语言的原生文本,无需罗马化。
  • 增强的元数据集成: 更新的提示词系统在全局和词级别整合了额外的元数据(时间、能量、频谱质心、音高),改善了说话者流畅度和合成质量。
  • 音频码本的特殊标记: 为 c1(码本 1)和 c2(码本 2)添加了新标记。

2. 新的音频编码器模型

  • DAC 编码器: 集成了来自 ibm-research/DAC.speech.v1.0 的 DAC 音频编码器,利用两个码本实现高质量音频重建。
  • 性能权衡: 改进的音频保真度将 token 生成速率从每秒 75 个提高到每秒 150 个。这种权衡优先考虑质量,特别是对于多语言应用。

3. 声音克隆

  • 单样本声音克隆: 为实现单样本克隆,模型通常只需要约 10 秒的参考音频即可产生准确的声音表现。
  • 提高准确性: 在新编码器和额外训练元数据的增强下,声音克隆现在更加自然和精确。

4. 自动文本对齐与数字支持

  • 自动文本对齐: 在词级别对齐原始文本,即使对于没有明确边界的语言(如日语、中文),也使用预处理训练数据的洞察。
  • 直接数字输入: 内置多语言数字支持允许在提示词中直接使用数字——无需文本转换。(模型通常选择占主导地位的语言。在单个提示词中混合语言可能会导致错误。)

5. 多语言能力

  • 支持的语言: OuteTTS 根据训练数据暴露程度,在各语言中提供不同程度的熟练度。

  • 高训练数据语言: 这些语言具有广泛的训练:英语、阿拉伯语、中文、荷兰语、法语、德语、意大利语、日语、韩语、立陶宛语、俄语、西班牙语

  • 中等训练数据语言: 这些语言接受了中等程度的训练,提供良好的性能,但偶有限制:葡萄牙语、白俄罗斯语、孟加拉语、格鲁吉亚语、匈牙利语、拉脱维亚语、波斯语/法尔西语、波兰语、斯瓦希里语、泰米尔语、乌克兰语

  • 超出支持范围的语言: 模型可以以不同程度的成功生成未经训练语言的语音。可以尝试未列出的语言,但结果可能不是最佳的。

视频展示

<video width="1280" height="720" controls style="box-shadow: 0px 0px 20px 10px rgba(0, 0, 0, 0.05), 0px 1px 3px 10px rgba(255, 255, 255, 0.05);"> <source src="https://huggingface.co/OuteAI/Llama-OuteTTS-1.0-1B-GGUF/resolve/main/media/showcase.mp4" type="video/mp4"> 您的浏览器不支持 video 标签。 </video>

快速入门指南

开始使用 OuteTTS 很简单:

安装

🔗 安装说明

基本用法

import outetts

# 初始化接口
interface = outetts.Interface(
    config=outetts.ModelConfig.auto_config(
        model=outetts.Models.VERSION_1_0_SIZE_1B,
        # 对于 llama.cpp 后端
        backend=outetts.Backend.LLAMACPP,
        quantization=outetts.LlamaCppQuantization.FP16
        # 对于 transformers 后端
        # backend=outetts.Backend.HF,
    )
)

# 加载默认说话者配置文件
speaker = interface.load_default_speaker("EN-FEMALE-1-NEUTRAL")

# 或者快速创建您自己的说话者配置文件并立即重用
# speaker = interface.create_speaker("path/to/audio.wav")
# interface.save_speaker(speaker, "speaker.json")
# speaker = interface.load_speaker("speaker.json")

# 生成语音
output = interface.generate(
    config=outetts.GenerationConfig(
        text="Hello, how are you doing?",
        generation_type=outetts.GenerationType.CHUNKED,
        speaker=speaker,
        sampler_config=outetts.SamplerConfig(
            temperature=0.4
        ),
    )
)

# 保存到文件
output.save("output.wav")

更多配置选项

有关高级设置和自定义,请访问官方仓库:
🔗 interface_usage.md

使用建议

说话者参考

该模型设计为与说话者参考一起使用。如果没有,它会生成随机的声音特征,通常导致较低质量的输出。 模型会继承参考说话者的情感、风格和口音。 当使用相同的说话者转录到其他语言时,您可能会观察到模型保留了原始口音。

多语言应用

建议在您打算使用的语言中创建说话者配置文件。这有助于在该特定语言中获得最佳结果,包括语调、口音和语言特征。

虽然模型支持跨语言语音,但它仍然依赖于参考说话者。如果说话者有明显的口音——例如英式英语——其他语言也可能带有该口音。

最佳音频长度

  • 最佳性能: 单次运行生成约 42 秒的音频(约 8,192 个 token)。建议在生成时不要接近此窗口的极限。通常,最佳结果最多为 7,000 个 token。
  • 使用说话者参考时上下文减少: 如果说话者参考时长为 10 秒,有效上下文将减少到约 32 秒。

温度设置建议

测试表明,0.4 的温度是准确性的理想起点(使用下面的采样设置)。但是,某些声音参考可能会受益于更高的温度以增强表现力,或略低的温度以实现更精确的声音复制。

验证说话者编码

如果克隆的声音质量不佳,请检查编码的说话者样本。

interface.decode_and_save_speaker(speaker=your_speaker, path="speaker.wav")

DAC 音频重建模型是有损的,具有削波、过大音量或异常声音特征的样本可能会引入影响输出质量的编码问题。

采样配置

为获得此 TTS 模型的最佳效果,请使用以下采样设置。

参数
Temperature(温度) 0.4
Repetition Penalty(重复惩罚) 1.1
Repetition Range(重复范围) 64
Top-k 40
Top-p 0.9
Min-p 0.05

模型规格

  • 训练数据: 在约 60k 小时的音频上训练
  • 上下文长度: 支持最大 8,192 个 token 的上下文窗口

训练参数

预训练

  • 优化器: AdamW
  • 批次大小: 100 万个 token
  • 最大学习率: 3e-4
  • 最小学习率: 3e-5
  • 上下文长度: 8192

微调

  • 优化器: AdamW
  • 最大学习率: 1e-5
  • 最小学习率: 5e-6
  • 数据: 10,000 个多样化、高质量的示例

许可信息

致谢

  • 非常感谢 Hugging Face 通过其资助计划持续提供资源支持!
  • 音频编码和解码使用 ibm-research/DAC.speech.v1.0
  • OuteTTS 以 Llama3.2-1B 为基础模型构建,并进行了持续预训练和微调。

道德使用准则

此文本转语音模型旨在用于增强可访问性、创造力和沟通的合法应用; 禁止的用途包括未经同意的冒充、故意创建误导性内容、生成有害或骚扰性材料、 在未适当披露的情况下分发合成音频、未经许可的声音克隆,以及任何违反适用法律、法规或版权的用途。

Prince-1/Llama-OuteTTS-1.0-1B

作者 Prince-1

text-to-speech onnxruntime-genai
↓ 0 ♥ 1

创建时间: 2025-07-04 07:51:51+00:00

更新时间: 2025-07-04 07:53:01+00:00

在 Hugging Face 上查看

文件 (8)

.gitattributes
README.md
genai_config.json
model.onnx ONNX
model.onnx.data
special_tokens_map.json
tokenizer.json
tokenizer_config.json