返回模型
说明文档
FlashSR
FlashSR 是一个基于 HierSpeech++ 上采样器架构的 2MB 音频超分辨率模型。它以 200 倍到 400 倍实时的速度将 16kHz 音频上采样至 48kHz。
详情
- 模型大小: PyTorch 版本 2MB,ONNX 版本 500KB
- 输入采样率: 16kHz
- 输出采样率: 48kHz
- 推理速度: 200x - 400x 实时,取决于 GPU 和数据类型
性能概述
FlashSR 专为高速频率重建而设计。与 Resemble-Enhance 和 ClearerVoice 等替代方案相比,它的计算开销显著更低,同时保持相似的输出质量。
基准测试对比
| 模型 | 速度 | 大小 |
|---|---|---|
| FlashSR | 200x - 400x 实时 | 2MB/500KB |
| Resemble-Enhance | < 20x 实时 | ~700MB+ |
| ClearerVoice | < 20x 实时 | ~200MB+ |
使用方法
ONNX/PyTorch 使用说明和源代码可在 GitHub 上获取: https://github.com/ysharma3501/FlashSR
致谢
感谢 HierSpeech++ 的作者,本模型基于其 48kHz 上采样器;同时感谢 Xenova 提供的 ONNX 代码。
YatharthS/FlashSR
作者 YatharthS
audio-to-audio
↓ 0
♥ 60
创建时间: 2025-11-16 15:26:30+00:00
更新时间: 2025-12-26 20:24:13+00:00
在 Hugging Face 上查看文件 (4)
.gitattributes
README.md
onnx/model.onnx
ONNX
upsampler.pth