ONNX 模型库
返回模型

说明文档

Parakeet TDT 0.6B v3 - ONNX INT8

NVIDIA 的 Parakeet TDT 0.6B v3 的 ONNX INT8 量化版本,用于浏览器推理。

版权说明

本模型是 nvidia/parakeet-tdt-0.6b-v3 的转换版本,原作者是 NVIDIA。

原始模型:NVIDIA Parakeet TDT 0.6B v3
原始许可证CC-BY-4.0
修改内容:从 NeMo 格式转换为 ONNX 格式,并量化为 INT8

用法

针对 ONNX Runtime Web 和 WASM 后端进行了优化。

  • 适用于所有浏览器(无需 WebGPU)
  • 总下载量约 890MB
  • 为不支持 WebGPU 的设备提供后备方案

文件

文件 大小 描述
encoder-int8.onnx 1.4MB 编码器模型图
encoder-int8.onnx.data 838MB 编码器权重(MatMul/Gemm 为 INT8,Conv 为 FP32)
decoder_joint-int8.onnx 52MB 解码器 + 联合器
vocab.txt 92KB 分词器词表

转换

使用 NeMo Toolkit + PyTorch 2.4 进行转换,采用仅权重的动态量化

from onnxruntime.quantization import quantize_dynamic, QuantType

quantize_dynamic(
    \"encoder-temp.onnx\",
    \"encoder-int8.onnx\",
    weight_type=QuantType.QInt8,
    op_types_to_quantize=['MatMul', 'Gemm'],  # Skip Conv ops
    use_external_data_format=True,
    extra_options={
        'WeightSymmetric': True,
        'MatMulConstBOnly': True,
    }
)

重要说明

  • 仅 MatMul/Gemm 操作被量化 - Conv 操作保持 FP32,以避免创建 ONNX Runtime Web WASM 后端不支持的 ConvInteger 操作。
  • 仅权重量化 - 激活值保持 FP32,仅权重为 INT8。

许可证

CC-BY-4.0 - © NVIDIA Corporation

nasedkinpv/parakeet-tdt-0.6b-v3-onnx-int8

作者 nasedkinpv

automatic-speech-recognition onnxruntime
↓ 0 ♥ 1

创建时间: 2025-12-29 15:56:11+00:00

更新时间: 2025-12-29 16:38:47+00:00

在 Hugging Face 上查看

文件 (6)

.gitattributes
README.md
decoder_joint-int8.onnx ONNX
encoder-int8.onnx ONNX
encoder-int8.onnx.data
vocab.txt