返回模型

说明文档

Supertonic — 闪电般快速的端侧语音合成系统

Supertonic 是一个闪电般快速的端侧文本转语音系统，专为极致性能和最小计算开销而设计。基于 ONNX Runtime 驱动，完全在您的设备上运行——无需云端、无需 API 调用、无隐私顾虑。

🎧 立即体验：通过我们的 交互式演示 在浏览器中体验 Supertonic，或访问 Hugging Face 应用，也可以从 Hugging Face Hub 获取预训练模型开始使用

🛠 GitHub 仓库
如需最便捷地使用 Supertonic，请访问官方 GitHub 仓库：
https://github.com/supertone-inc/supertonic
您可以在那里找到多语言示例代码。

为什么选择 Supertonic？

⚡ 极速生成：在消费级硬件（M4 Pro）上可达到比实时快 167 倍的语音生成速度——任何其他 TTS 系统都无法匹敌
🪶 超轻量级：仅有 6600 万参数，针对高效的端侧性能进行了优化，占用空间极小
📱 端侧能力：完全隐私和零延迟——所有处理都在您的设备本地完成
🎨 自然文本处理：无需预处理即可无缝处理数字、日期、货币、缩写和复杂表达式
⚙️ 高度可配置：可调整推理步数、批处理和其他参数以满足您的特定需求
🧩 灵活部署：支持多种运行时后端，可无缝部署到服务器、浏览器和边缘设备。

语言支持

我们提供多种生态系统中即用型 TTS 推理示例：

语言/平台	路径	描述
[Python]	`py/`	ONNX Runtime 推理
[Node.js]	`nodejs/`	服务端 JavaScript
[Browser]	`web/`	WebGPU/WASM 推理
[Java]	`java/`	跨平台 JVM
[C++]	`cpp/`	高性能 C++
[C#]	`csharp/`	.NET 生态
[Go]	`go/`	Go 实现
[Swift]	`swift/`	macOS 应用程序
[iOS]	`ios/`	原生 iOS 应用
[Rust]	`rust/`	内存安全的系统语言
[Flutter]	`flutter/`	跨平台应用

有关详细使用说明，请参阅各语言目录中的 README.md。

快速开始

首先，克隆仓库：

git clone https://github.com/supertone-inc/supertonic.git
cd supertonic

前置条件

在运行示例之前，请下载 ONNX 模型和预设音色，并将它们放入 assets 目录：

git clone https://huggingface.co/Supertone/supertonic assets

注意： Hugging Face 仓库使用 Git LFS。在克隆或拉取大型模型文件之前，请确保已安装并初始化 Git LFS。

macOS: brew install git-lfs && git lfs install

通用：请参阅 https://git-lfs.com 获取安装程序

技术细节

运行时：ONNX Runtime 用于跨平台推理（针对 CPU 优化；GPU 模式未经测试）
浏览器支持：onnxruntime-web 用于客户端推理
批处理：支持批处理推理以提高吞吐量
音频输出：输出 16 位 WAV 文件

性能表现

我们使用两个关键指标在不同长度输入文本上评估了 Supertonic 的性能（使用 2 个推理步）：短文本（59 字符）、中等文本（152 字符）和长文本（266 字符）。

指标：

每秒字符数：通过将输入字符数除以生成音频所需时间来衡量吞吐量。越高越好。
实时因子 (RTF)：衡量合成音频所需时间相对于音频时长的比例。越低越好（例如，RTF 为 0.1 意味着生成一秒音频需要 0.1 秒）。

每秒字符数

系统	短文本 (59 字符)	中等文本 (152 字符)	长文本 (266 字符)
Supertonic (M4 pro - CPU)	912	1048	1263
Supertonic (M4 pro - WebGPU)	996	1801	2509
Supertonic (RTX4090)	2615	6548	12164
`API` ElevenLabs Flash v2.5	144	209	287
`API` OpenAI TTS-1	37	55	82
`API` Gemini 2.5 Flash TTS	12	18	24
`API` Supertone Sona speech 1	38	64	92
`Open` Kokoro	104	107	117
`Open` NeuTTS Air	37	42	47

注意：
API = 基于云端的 API 服务（从首尔测量）
Open = 开源模型
Supertonic (M4 pro - CPU) 和 (M4 pro - WebGPU)：使用 ONNX 测试
Supertonic (RTX4090)：使用 PyTorch 模型测试
Kokoro：在 M4 Pro CPU 上使用 ONNX 测试
NeuTTS Air：在 M4 Pro CPU 上使用 Q8-GGUF 测试

实时因子

系统	短文本 (59 字符)	中等文本 (152 字符)	长文本 (266 字符)
Supertonic (M4 pro - CPU)	0.015	0.013	0.012
Supertonic (M4 pro - WebGPU)	0.014	0.007	0.006
Supertonic (RTX4090)	0.005	0.002	0.001
`API` ElevenLabs Flash v2.5	0.133	0.077	0.057
`API` OpenAI TTS-1	0.471	0.302	0.201
`API` Gemini 2.5 Flash TTS	1.060	0.673	0.541
`API` Supertone Sona speech 1	0.372	0.206	0.163
`Open` Kokoro	0.144	0.124	0.126
`Open` NeuTTS Air	0.390	0.338	0.343

<details> <summary><b>额外性能数据（5 步推理）</b></summary>

<br>

每秒字符数（5 步）

系统	短文本 (59 字符)	中等文本 (152 字符)	长文本 (266 字符)
Supertonic (M4 pro - CPU)	596	691	850
Supertonic (M4 pro - WebGPU)	570	1118	1546
Supertonic (RTX4090)	1286	3757	6242

实时因子（5 步）

系统	短文本 (59 字符)	中等文本 (152 字符)	长文本 (266 字符)
Supertonic (M4 pro - CPU)	0.023	0.019	0.018
Supertonic (M4 pro - WebGPU)	0.024	0.012	0.010
Supertonic (RTX4090)	0.011	0.004	0.002

</details>

许可证

本项目的示例代码基于 MIT 许可证发布。详情请参阅 LICENSE。

配套模型基于 OpenRAIL-M 许可证发布。详情请参阅 LICENSE 文件。

本模型使用 PyTorch 训练，PyTorch 基于 BSD 3-Clause 许可证，但未随本项目一起分发。详情请参阅 LICENSE。

IsGarrido/supertonic

作者 IsGarrido

text-to-speech supertonic

↓ 0 ♥ 0

创建时间: 2025-12-11 18:34:25+00:00

更新时间: 2025-12-11 18:34:32+00:00

在 Hugging Face 上查看

文件 (22)

.gitattributes

.gitignore

LICENSE

README.md

config.json

onnx/duration_predictor.onnx ONNX

onnx/text_encoder.onnx ONNX

onnx/tts.json

onnx/tts.yml

onnx/unicode_indexer.json

onnx/vector_estimator.onnx ONNX

onnx/vocoder.onnx ONNX

voice_styles/F1.json

voice_styles/F2.json

voice_styles/F3.json

voice_styles/F4.json

voice_styles/F5.json

voice_styles/M1.json

voice_styles/M2.json

voice_styles/M3.json

voice_styles/M4.json

voice_styles/M5.json