ONNX 模型库
返回模型

说明文档

Supertonic — 闪电般快速的端侧语音合成系统

Supertonic 是一个闪电般快速的端侧文本转语音系统,专为极致性能和最小计算开销而设计。基于 ONNX Runtime 驱动,完全在您的设备上运行——无需云端、无需 API 调用、无隐私顾虑。

🎧 立即体验:通过我们的 交互式演示 在浏览器中体验 Supertonic,或访问 Hugging Face 应用,也可以从 Hugging Face Hub 获取预训练模型开始使用

🛠 GitHub 仓库
如需最便捷地使用 Supertonic,请访问官方 GitHub 仓库:
https://github.com/supertone-inc/supertonic
您可以在那里找到多语言示例代码。

目录

为什么选择 Supertonic?

  • ⚡ 极速生成:在消费级硬件(M4 Pro)上可达到比实时快 167 倍的语音生成速度——任何其他 TTS 系统都无法匹敌
  • 🪶 超轻量级:仅有 6600 万参数,针对高效的端侧性能进行了优化,占用空间极小
  • 📱 端侧能力完全隐私零延迟——所有处理都在您的设备本地完成
  • 🎨 自然文本处理:无需预处理即可无缝处理数字、日期、货币、缩写和复杂表达式
  • ⚙️ 高度可配置:可调整推理步数、批处理和其他参数以满足您的特定需求
  • 🧩 灵活部署:支持多种运行时后端,可无缝部署到服务器、浏览器和边缘设备。

语言支持

我们提供多种生态系统中即用型 TTS 推理示例:

语言/平台 路径 描述
[Python] py/ ONNX Runtime 推理
[Node.js] nodejs/ 服务端 JavaScript
[Browser] web/ WebGPU/WASM 推理
[Java] java/ 跨平台 JVM
[C++] cpp/ 高性能 C++
[C#] csharp/ .NET 生态
[Go] go/ Go 实现
[Swift] swift/ macOS 应用程序
[iOS] ios/ 原生 iOS 应用
[Rust] rust/ 内存安全的系统语言
[Flutter] flutter/ 跨平台应用

有关详细使用说明,请参阅各语言目录中的 README.md。

快速开始

首先,克隆仓库:

git clone https://github.com/supertone-inc/supertonic.git
cd supertonic

前置条件

在运行示例之前,请下载 ONNX 模型和预设音色,并将它们放入 assets 目录:

git clone https://huggingface.co/Supertone/supertonic assets

注意: Hugging Face 仓库使用 Git LFS。在克隆或拉取大型模型文件之前,请确保已安装并初始化 Git LFS。

  • macOS: brew install git-lfs && git lfs install
  • 通用:请参阅 https://git-lfs.com 获取安装程序

技术细节

  • 运行时:ONNX Runtime 用于跨平台推理(针对 CPU 优化;GPU 模式未经测试)
  • 浏览器支持:onnxruntime-web 用于客户端推理
  • 批处理:支持批处理推理以提高吞吐量
  • 音频输出:输出 16 位 WAV 文件

性能表现

我们使用两个关键指标在不同长度输入文本上评估了 Supertonic 的性能(使用 2 个推理步):短文本(59 字符)、中等文本(152 字符)和长文本(266 字符)。

指标:

  • 每秒字符数:通过将输入字符数除以生成音频所需时间来衡量吞吐量。越高越好。
  • 实时因子 (RTF):衡量合成音频所需时间相对于音频时长的比例。越低越好(例如,RTF 为 0.1 意味着生成一秒音频需要 0.1 秒)。

每秒字符数

系统 短文本 (59 字符) 中等文本 (152 字符) 长文本 (266 字符)
Supertonic (M4 pro - CPU) 912 1048 1263
Supertonic (M4 pro - WebGPU) 996 1801 2509
Supertonic (RTX4090) 2615 6548 12164
API ElevenLabs Flash v2.5 144 209 287
API OpenAI TTS-1 37 55 82
API Gemini 2.5 Flash TTS 12 18 24
API Supertone Sona speech 1 38 64 92
Open Kokoro 104 107 117
Open NeuTTS Air 37 42 47

注意:
API = 基于云端的 API 服务(从首尔测量)
Open = 开源模型
Supertonic (M4 pro - CPU) 和 (M4 pro - WebGPU):使用 ONNX 测试
Supertonic (RTX4090):使用 PyTorch 模型测试
Kokoro:在 M4 Pro CPU 上使用 ONNX 测试
NeuTTS Air:在 M4 Pro CPU 上使用 Q8-GGUF 测试

实时因子

系统 短文本 (59 字符) 中等文本 (152 字符) 长文本 (266 字符)
Supertonic (M4 pro - CPU) 0.015 0.013 0.012
Supertonic (M4 pro - WebGPU) 0.014 0.007 0.006
Supertonic (RTX4090) 0.005 0.002 0.001
API ElevenLabs Flash v2.5 0.133 0.077 0.057
API OpenAI TTS-1 0.471 0.302 0.201
API Gemini 2.5 Flash TTS 1.060 0.673 0.541
API Supertone Sona speech 1 0.372 0.206 0.163
Open Kokoro 0.144 0.124 0.126
Open NeuTTS Air 0.390 0.338 0.343

<details> <summary><b>额外性能数据(5 步推理)</b></summary>

<br>

每秒字符数(5 步)

系统 短文本 (59 字符) 中等文本 (152 字符) 长文本 (266 字符)
Supertonic (M4 pro - CPU) 596 691 850
Supertonic (M4 pro - WebGPU) 570 1118 1546
Supertonic (RTX4090) 1286 3757 6242

实时因子(5 步)

系统 短文本 (59 字符) 中等文本 (152 字符) 长文本 (266 字符)
Supertonic (M4 pro - CPU) 0.023 0.019 0.018
Supertonic (M4 pro - WebGPU) 0.024 0.012 0.010
Supertonic (RTX4090) 0.011 0.004 0.002

</details>

许可证

本项目的示例代码基于 MIT 许可证发布。详情请参阅 LICENSE

配套模型基于 OpenRAIL-M 许可证发布。详情请参阅 LICENSE 文件。

本模型使用 PyTorch 训练,PyTorch 基于 BSD 3-Clause 许可证,但未随本项目一起分发。详情请参阅 LICENSE

版权所有 © 2025 Supertone Inc.

IsGarrido/supertonic

作者 IsGarrido

text-to-speech supertonic
↓ 0 ♥ 0

创建时间: 2025-12-11 18:34:25+00:00

更新时间: 2025-12-11 18:34:32+00:00

在 Hugging Face 上查看

文件 (22)

.gitattributes
.gitignore
LICENSE
README.md
config.json
onnx/duration_predictor.onnx ONNX
onnx/text_encoder.onnx ONNX
onnx/tts.json
onnx/tts.yml
onnx/unicode_indexer.json
onnx/vector_estimator.onnx ONNX
onnx/vocoder.onnx ONNX
voice_styles/F1.json
voice_styles/F2.json
voice_styles/F3.json
voice_styles/F4.json
voice_styles/F5.json
voice_styles/M1.json
voice_styles/M2.json
voice_styles/M3.json
voice_styles/M4.json
voice_styles/M5.json