返回模型

说明文档

Parakeet TDT 0.6B v3 - ONNX INT8

NVIDIA 的 Parakeet TDT 0.6B v3 的 ONNX INT8 量化版本，用于浏览器推理。

版权说明

本模型是 nvidia/parakeet-tdt-0.6b-v3 的转换版本，原作者是 NVIDIA。

原始模型：NVIDIA Parakeet TDT 0.6B v3
原始许可证：CC-BY-4.0
修改内容：从 NeMo 格式转换为 ONNX 格式，并量化为 INT8

用法

针对 ONNX Runtime Web 和 WASM 后端进行了优化。

适用于所有浏览器（无需 WebGPU）
总下载量约 890MB
为不支持 WebGPU 的设备提供后备方案

文件

文件	大小	描述
encoder-int8.onnx	1.4MB	编码器模型图
encoder-int8.onnx.data	838MB	编码器权重（MatMul/Gemm 为 INT8，Conv 为 FP32）
decoder_joint-int8.onnx	52MB	解码器 + 联合器
vocab.txt	92KB	分词器词表

转换

使用 NeMo Toolkit + PyTorch 2.4 进行转换，采用仅权重的动态量化：

from onnxruntime.quantization import quantize_dynamic, QuantType

quantize_dynamic(
    \"encoder-temp.onnx\",
    \"encoder-int8.onnx\",
    weight_type=QuantType.QInt8,
    op_types_to_quantize=['MatMul', 'Gemm'],  # Skip Conv ops
    use_external_data_format=True,
    extra_options={
        'WeightSymmetric': True,
        'MatMulConstBOnly': True,
    }
)

重要说明

仅 MatMul/Gemm 操作被量化 - Conv 操作保持 FP32，以避免创建 ONNX Runtime Web WASM 后端不支持的 ConvInteger 操作。
仅权重量化 - 激活值保持 FP32，仅权重为 INT8。

许可证

CC-BY-4.0 - © NVIDIA Corporation

nasedkinpv/parakeet-tdt-0.6b-v3-onnx-int8

作者 nasedkinpv

automatic-speech-recognition onnxruntime

↓ 0 ♥ 1

创建时间: 2025-12-29 15:56:11+00:00

更新时间: 2025-12-29 16:38:47+00:00

在 Hugging Face 上查看

文件 (6)

.gitattributes

README.md

decoder_joint-int8.onnx ONNX

encoder-int8.onnx ONNX

encoder-int8.onnx.data

vocab.txt