返回模型
说明文档
Parakeet TDT 0.6B v3 - ONNX INT8
NVIDIA 的 Parakeet TDT 0.6B v3 的 ONNX INT8 量化版本,用于浏览器推理。
版权说明
本模型是 nvidia/parakeet-tdt-0.6b-v3 的转换版本,原作者是 NVIDIA。
原始模型:NVIDIA Parakeet TDT 0.6B v3
原始许可证:CC-BY-4.0
修改内容:从 NeMo 格式转换为 ONNX 格式,并量化为 INT8
用法
针对 ONNX Runtime Web 和 WASM 后端进行了优化。
- 适用于所有浏览器(无需 WebGPU)
- 总下载量约 890MB
- 为不支持 WebGPU 的设备提供后备方案
文件
| 文件 | 大小 | 描述 |
|---|---|---|
| encoder-int8.onnx | 1.4MB | 编码器模型图 |
| encoder-int8.onnx.data | 838MB | 编码器权重(MatMul/Gemm 为 INT8,Conv 为 FP32) |
| decoder_joint-int8.onnx | 52MB | 解码器 + 联合器 |
| vocab.txt | 92KB | 分词器词表 |
转换
使用 NeMo Toolkit + PyTorch 2.4 进行转换,采用仅权重的动态量化:
from onnxruntime.quantization import quantize_dynamic, QuantType
quantize_dynamic(
\"encoder-temp.onnx\",
\"encoder-int8.onnx\",
weight_type=QuantType.QInt8,
op_types_to_quantize=['MatMul', 'Gemm'], # Skip Conv ops
use_external_data_format=True,
extra_options={
'WeightSymmetric': True,
'MatMulConstBOnly': True,
}
)
重要说明
- 仅 MatMul/Gemm 操作被量化 - Conv 操作保持 FP32,以避免创建 ONNX Runtime Web WASM 后端不支持的
ConvInteger操作。 - 仅权重量化 - 激活值保持 FP32,仅权重为 INT8。
许可证
CC-BY-4.0 - © NVIDIA Corporation
nasedkinpv/parakeet-tdt-0.6b-v3-onnx-int8
作者 nasedkinpv
automatic-speech-recognition
onnxruntime
↓ 0
♥ 1
创建时间: 2025-12-29 15:56:11+00:00
更新时间: 2025-12-29 16:38:47+00:00
在 Hugging Face 上查看文件 (6)
.gitattributes
README.md
decoder_joint-int8.onnx
ONNX
encoder-int8.onnx
ONNX
encoder-int8.onnx.data
vocab.txt