ONNX 模型库
返回模型

说明文档

FlashSR

FlashSR 是一个基于 HierSpeech++ 上采样器架构的 2MB 音频超分辨率模型。它以 200 倍到 400 倍实时的速度将 16kHz 音频上采样至 48kHz。

详情

  • 模型大小: PyTorch 版本 2MB,ONNX 版本 500KB
  • 输入采样率: 16kHz
  • 输出采样率: 48kHz
  • 推理速度: 200x - 400x 实时,取决于 GPU 和数据类型

性能概述

FlashSR 专为高速频率重建而设计。与 Resemble-Enhance 和 ClearerVoice 等替代方案相比,它的计算开销显著更低,同时保持相似的输出质量。

基准测试对比

模型 速度 大小
FlashSR 200x - 400x 实时 2MB/500KB
Resemble-Enhance < 20x 实时 ~700MB+
ClearerVoice < 20x 实时 ~200MB+

使用方法

ONNX/PyTorch 使用说明和源代码可在 GitHub 上获取: https://github.com/ysharma3501/FlashSR

致谢

感谢 HierSpeech++ 的作者,本模型基于其 48kHz 上采样器;同时感谢 Xenova 提供的 ONNX 代码。

YatharthS/FlashSR

作者 YatharthS

audio-to-audio
↓ 0 ♥ 60

创建时间: 2025-11-16 15:26:30+00:00

更新时间: 2025-12-26 20:24:13+00:00

在 Hugging Face 上查看

文件 (4)

.gitattributes
README.md
onnx/model.onnx ONNX
upsampler.pth