ONNX 模型库
返回模型

说明文档

Pocket-TTS ExecuTorch 模型

导出为 ExecuTorch PTE 格式的 GPU 加速 Pocket-TTS 模型,用于移动端推理。

模型流程

Text → [Tokenizer] → Tokens
         ↓
    text_conditioner.pte → 文本嵌入 (B, T, 1024)
         ↓
    flow_lm_main_bundled.pte → 条件向量 (B, 1024) + EOS logit
         ↓
    flow_net.pte (ODE 步骤) → 音频编码 (B, 32)
         ↓
    mimi_decoder.pte → 音频样本 (Float32, 24kHz)

文件

文件 大小 描述
text_conditioner.pte 16 MB 音素标记 → 文本嵌入
flow_lm_main_bundled.pte 96 MB 打包的主干网络 (forward_0, forward_32, forward_64, forward_128)
flow_net.pte 37 MB Flow matching ODE 步骤
mimi_encoder.pte 69 MB 音色参考编码器
mimi_decoder.pte 39 MB 音频编码 → 波形

使用方法 (Python)

from executorch.runtime import Runtime
import torch

runtime = Runtime.get()

# 加载模型
tc = runtime.load_program("text_conditioner.pte").load_method("forward")
backbone = runtime.load_program("flow_lm_main_bundled.pte")
bb_0 = backbone.load_method("forward_0")
bb_32 = backbone.load_method("forward_32")
flow = runtime.load_program("flow_net.pte").load_method("forward")
decoder = runtime.load_program("mimi_decoder.pte").load_method("forward")

# 推理
tokens = torch.randint(0, 100, (1, 20), dtype=torch.int64)
text_emb = tc.execute([tokens])[0]  # (1, 20, 1024)

# 主干网络步骤 0
seq = torch.randn(1, 1, 32)  # 初始音频潜变量
k_cache = torch.zeros(6, 1, 512, 16, 64)
v_cache = torch.zeros(6, 1, 512, 16, 64)
conditioning, eos, k_new, v_new = bb_0.execute([seq, k_cache, v_cache])

# Flow 步骤 (ODE)
c = conditioning
s, t, x = torch.tensor([[0.0]]), torch.tensor([[1.0]]), torch.randn(1, 32)
flow_dir = flow.execute([c, s, t, x])[0]

# 解码为音频
audio = decoder.execute([final_codes])[0]  # (samples,)

Android 集成

// 在 PocketTtsVulkanEngine.kt 中
val module = Module.load(context.filesDir.resolve("pocket/pte/flow_lm_main_bundled.pte"))
val output = module.forward(EValue.from(inputTensor))

依赖要求

  • ExecuTorch 0.6.0+
  • Android: org.pytorch:executorch-android:0.6.0

致谢

基于 Kyutai 的 Pocket-TTS。 导出模式参考 Kokoro ExecuTorch

许可证

Apache 2.0

sivasub987/Pocket-TTS-ExecuTorch

作者 sivasub987

↓ 18 ♥ 0

创建时间: 2026-01-30 11:49:35+00:00

更新时间: 2026-01-30 14:22:14+00:00

在 Hugging Face 上查看

文件 (13)

.gitattributes
README.md
flow_lm_main_bundled.pte
flow_net.pte
mimi_decoder.pte
mimi_encoder.pte
pte/flow_lm_flow.pte
pte/flow_lm_main.onnx ONNX
pte/flow_net.pte
pte/mimi_decoder.pte
pte/mimi_encoder.pte
pte/text_conditioner.pte
text_conditioner.pte