返回模型
说明文档
NeMo Nano 编解码器 (22kHz, 1.78kbps, 12.5fps) - ONNX
nemo-nano-codec-22khz-1.78kbps-12.5fps 的 ONNX 模型
模型描述
该编解码器采用两阶段架构:一个编码器通过向量量化将音频压缩为离散标记,一个解码器从这些标记重建音频。
- 模型类型: 神经音频编解码器(带向量量化的编码器-解码器)
- 许可证: NVIDIA 开放模型许可协议
- 微调自模型: nvidia/nemo-nano-codec-22khz-1.78kbps-12.5fps
模型来源
- 代码仓库: NVIDIA NeMo GitHub
- 原始模型: nvidia/nemo-nano-codec-22khz-1.78kbps-12.5fps
- 论文: NeMo NanoCodec: A Low-Bitrate Neural Audio Codec with Finite Scalar Quantization and Language Model-Based Training
禁止用途(根据 NVIDIA 开放模型许可证)
本模型不得用于:
- 非法监控
- 未经同意(法律要求时)非法收集或处理生物识别信息
- 骚扰、虐待、威胁、欺凌或故意误导或欺骗他人
如何开始使用该模型
安装
pip install onnxruntime numpy
基本用法
输入音频必须预先填充至完整帧(1764 样本的倍数)
完整流程示例
import numpy as np
import onnxruntime as ort
# 加载两个模型
encoder = ort.InferenceSession('encoder.onnx')
decoder = ort.InferenceSession('decoder.onnx')
# 填充辅助函数
def pad_audio_to_frames(audio, samples_per_frame=1764):
"""将音频填充至完整帧(编码器要求)。"""
current_len = audio.shape[-1]
num_frames = (current_len + samples_per_frame - 1) // samples_per_frame
padded_len = num_frames * samples_per_frame
padding_needed = padded_len - current_len
if padding_needed > 0:
audio = np.pad(audio, ((0, 0), (0, padding_needed)), mode='constant')
return audio, current_len
# 加载您的音频(必须是 22050 Hz,单声道)
original_audio = np.random.randn(1, 88200).astype(np.float32) # 4 秒示例
# 1. 将音频填充至完整帧
padded_audio, original_len = pad_audio_to_frames(original_audio)
audio_len = np.array([padded_audio.shape[-1]], dtype=np.int64)
# 2. 编码:音频 → 标记
tokens, tokens_len = encoder.run(None, {
'audio': padded_audio,
'audio_len': audio_len
})
# 3. 解码:标记 → 音频
reconstructed_audio, reconstructed_len = decoder.run(None, {
'tokens': tokens,
'tokens_len': tokens_len
})
# 4. 裁剪至原始长度
reconstructed_audio = reconstructed_audio[:, :original_len]
许可证
双重许可结构
本衍生作品采用双重许可分发:
原始模型(NVIDIA):
- 由 NVIDIA 公司根据 NVIDIA 开放模型许可证授权
- 底层训练权重和模型架构受 NVIDIA 开放模型许可协议 约束
修改部分:
- 任何修改均采用 Apache 许可证 2.0 授权
Knehm/nemo-nano-codec-22khz-1.78kbps-12.5fps-ONNX
作者 Knehm
feature-extraction
nemo
↓ 0
♥ 0
创建时间: 2025-11-01 00:16:18+00:00
更新时间: 2025-11-03 02:29:36+00:00
在 Hugging Face 上查看文件 (7)
.gitattributes
NOTICE
README.md
config.json
decoder.onnx
ONNX
encoder.onnx
ONNX
preprocessor_config.json