说明文档
Supertonic — 闪电般快速的端侧语音合成系统
Supertonic 是一个闪电般快速的端侧文本转语音系统,专为极致性能和最小计算开销而设计。基于 ONNX Runtime 驱动,完全在您的设备上运行——无需云端、无需 API 调用、无隐私顾虑。
🎧 立即体验:通过我们的 交互式演示 在浏览器中体验 Supertonic,或访问 Hugging Face 应用,也可以从 Hugging Face Hub 获取预训练模型开始使用
🛠 GitHub 仓库
如需最便捷地使用 Supertonic,请访问官方 GitHub 仓库:
https://github.com/supertone-inc/supertonic
您可以在那里找到多语言示例代码。
目录
为什么选择 Supertonic?
- ⚡ 极速生成:在消费级硬件(M4 Pro)上可达到比实时快 167 倍的语音生成速度——任何其他 TTS 系统都无法匹敌
- 🪶 超轻量级:仅有 6600 万参数,针对高效的端侧性能进行了优化,占用空间极小
- 📱 端侧能力:完全隐私和零延迟——所有处理都在您的设备本地完成
- 🎨 自然文本处理:无需预处理即可无缝处理数字、日期、货币、缩写和复杂表达式
- ⚙️ 高度可配置:可调整推理步数、批处理和其他参数以满足您的特定需求
- 🧩 灵活部署:支持多种运行时后端,可无缝部署到服务器、浏览器和边缘设备。
语言支持
我们提供多种生态系统中即用型 TTS 推理示例:
| 语言/平台 | 路径 | 描述 |
|---|---|---|
| [Python] | py/ |
ONNX Runtime 推理 |
| [Node.js] | nodejs/ |
服务端 JavaScript |
| [Browser] | web/ |
WebGPU/WASM 推理 |
| [Java] | java/ |
跨平台 JVM |
| [C++] | cpp/ |
高性能 C++ |
| [C#] | csharp/ |
.NET 生态 |
| [Go] | go/ |
Go 实现 |
| [Swift] | swift/ |
macOS 应用程序 |
| [iOS] | ios/ |
原生 iOS 应用 |
| [Rust] | rust/ |
内存安全的系统语言 |
| [Flutter] | flutter/ |
跨平台应用 |
有关详细使用说明,请参阅各语言目录中的 README.md。
快速开始
首先,克隆仓库:
git clone https://github.com/supertone-inc/supertonic.git
cd supertonic
前置条件
在运行示例之前,请下载 ONNX 模型和预设音色,并将它们放入 assets 目录:
git clone https://huggingface.co/Supertone/supertonic assets
注意: Hugging Face 仓库使用 Git LFS。在克隆或拉取大型模型文件之前,请确保已安装并初始化 Git LFS。
- macOS:
brew install git-lfs && git lfs install- 通用:请参阅
https://git-lfs.com获取安装程序
技术细节
- 运行时:ONNX Runtime 用于跨平台推理(针对 CPU 优化;GPU 模式未经测试)
- 浏览器支持:onnxruntime-web 用于客户端推理
- 批处理:支持批处理推理以提高吞吐量
- 音频输出:输出 16 位 WAV 文件
性能表现
我们使用两个关键指标在不同长度输入文本上评估了 Supertonic 的性能(使用 2 个推理步):短文本(59 字符)、中等文本(152 字符)和长文本(266 字符)。
指标:
- 每秒字符数:通过将输入字符数除以生成音频所需时间来衡量吞吐量。越高越好。
- 实时因子 (RTF):衡量合成音频所需时间相对于音频时长的比例。越低越好(例如,RTF 为 0.1 意味着生成一秒音频需要 0.1 秒)。
每秒字符数
| 系统 | 短文本 (59 字符) | 中等文本 (152 字符) | 长文本 (266 字符) |
|---|---|---|---|
| Supertonic (M4 pro - CPU) | 912 | 1048 | 1263 |
| Supertonic (M4 pro - WebGPU) | 996 | 1801 | 2509 |
| Supertonic (RTX4090) | 2615 | 6548 | 12164 |
API ElevenLabs Flash v2.5 |
144 | 209 | 287 |
API OpenAI TTS-1 |
37 | 55 | 82 |
API Gemini 2.5 Flash TTS |
12 | 18 | 24 |
API Supertone Sona speech 1 |
38 | 64 | 92 |
Open Kokoro |
104 | 107 | 117 |
Open NeuTTS Air |
37 | 42 | 47 |
注意:
API= 基于云端的 API 服务(从首尔测量)
Open= 开源模型
Supertonic (M4 pro - CPU) 和 (M4 pro - WebGPU):使用 ONNX 测试
Supertonic (RTX4090):使用 PyTorch 模型测试
Kokoro:在 M4 Pro CPU 上使用 ONNX 测试
NeuTTS Air:在 M4 Pro CPU 上使用 Q8-GGUF 测试
实时因子
| 系统 | 短文本 (59 字符) | 中等文本 (152 字符) | 长文本 (266 字符) |
|---|---|---|---|
| Supertonic (M4 pro - CPU) | 0.015 | 0.013 | 0.012 |
| Supertonic (M4 pro - WebGPU) | 0.014 | 0.007 | 0.006 |
| Supertonic (RTX4090) | 0.005 | 0.002 | 0.001 |
API ElevenLabs Flash v2.5 |
0.133 | 0.077 | 0.057 |
API OpenAI TTS-1 |
0.471 | 0.302 | 0.201 |
API Gemini 2.5 Flash TTS |
1.060 | 0.673 | 0.541 |
API Supertone Sona speech 1 |
0.372 | 0.206 | 0.163 |
Open Kokoro |
0.144 | 0.124 | 0.126 |
Open NeuTTS Air |
0.390 | 0.338 | 0.343 |
<details> <summary><b>额外性能数据(5 步推理)</b></summary>
<br>
每秒字符数(5 步)
| 系统 | 短文本 (59 字符) | 中等文本 (152 字符) | 长文本 (266 字符) |
|---|---|---|---|
| Supertonic (M4 pro - CPU) | 596 | 691 | 850 |
| Supertonic (M4 pro - WebGPU) | 570 | 1118 | 1546 |
| Supertonic (RTX4090) | 1286 | 3757 | 6242 |
实时因子(5 步)
| 系统 | 短文本 (59 字符) | 中等文本 (152 字符) | 长文本 (266 字符) |
|---|---|---|---|
| Supertonic (M4 pro - CPU) | 0.023 | 0.019 | 0.018 |
| Supertonic (M4 pro - WebGPU) | 0.024 | 0.012 | 0.010 |
| Supertonic (RTX4090) | 0.011 | 0.004 | 0.002 |
</details>
许可证
本项目的示例代码基于 MIT 许可证发布。详情请参阅 LICENSE。
配套模型基于 OpenRAIL-M 许可证发布。详情请参阅 LICENSE 文件。
本模型使用 PyTorch 训练,PyTorch 基于 BSD 3-Clause 许可证,但未随本项目一起分发。详情请参阅 LICENSE。
版权所有 © 2025 Supertone Inc.
IsGarrido/supertonic
作者 IsGarrido
创建时间: 2025-12-11 18:34:25+00:00
更新时间: 2025-12-11 18:34:32+00:00
在 Hugging Face 上查看