ONNX 模型库
返回模型

说明文档

Chatterbox 多语言 TTS - Q4 量化 ONNX

这是 onnx-community/chatterbox-multilingual-ONNX 的 Q4 仅权重量化版本,用于 Transformers.jsONNX Runtime Web

主要特性

  • 体积减少 75%:790 MB 对比原始 3.2 GB
  • 单文件 ONNX:无外部数据文件,兼容 Transformers.js
  • 相同质量:Q4 量化带来的质量损失极小
  • 支持 23 种语言:ar, da, de, el, en, es, fi, fr, he, hi, it, ja, ko, ms, nl, no, pl, pt, ru, sv, sw, tr, zh

模型大小

模型 原始 (FP32) Q4 量化
speech_encoder.onnx 564 MB 172 MB
embed_tokens.onnx 66 MB 65 MB
language_model.onnx 2.0 GB 338 MB
conditional_decoder.onnx 510 MB 215 MB
总计 3.2 GB 790 MB

使用方法

使用 ONNX Runtime (Python)

import onnxruntime

# 加载 Q4 模型 - 单文件,无需外部数据
speech_encoder = onnxruntime.InferenceSession("onnx/speech_encoder.onnx")
embed_tokens = onnxruntime.InferenceSession("onnx/embed_tokens.onnx")
language_model = onnxruntime.InferenceSession("onnx/language_model.onnx")
conditional_decoder = onnxruntime.InferenceSession("onnx/conditional_decoder.onnx")

使用 Transformers.js (JavaScript)

// 模型为单文件 ONNX 格式,兼容 ONNX Runtime Web
import { AutoTokenizer } from '@huggingface/transformers';

const tokenizer = await AutoTokenizer.from_pretrained('ipsilondev/chatterbox-multilingual-ONNX-q4');

量化详情

  • 方法:使用 MatMulNBitsQuantizer 进行 Q4 仅权重量化
  • 块大小:32
  • 对称量化:是
  • 格式:单文件 ONNX(无外部数据),兼容 Web

重要参数

使用这些模型时,请确保使用正确的参数:

repetition_penalty = 1.2  # 关键:不要使用 2.0 - 会导致无限循环
temperature = 0.8
top_p = 0.95
min_p = 0.05

支持的语言

代码 语言 代码 语言
ar 阿拉伯语 ko 韩语
da 丹麦语 ms 马来语
de 德语 nl 荷兰语
el 希腊语 no 挪威语
en 英语 pl 波兰语
es 西班牙语 pt 葡萄牙语
fi 芬兰语 ru 俄语
fr 法语 sv 瑞典语
he 希伯来语 sw 斯瓦希里语
hi 印地语 tr 土耳其语
it 意大利语 zh 中文
ja 日语

致谢

许可证

MIT 许可证(与原始模型相同)

ipsilondev/chatterbox-multilingual-ONNX-q4

作者 ipsilondev

text-to-speech transformers.js
↓ 0 ♥ 10

创建时间: 2026-01-12 21:24:06+00:00

更新时间: 2026-01-12 21:24:51+00:00

在 Hugging Face 上查看

文件 (11)

.gitattributes
Cangjie5_TC.json
README.md
default_voice.wav
generation_config.json
onnx/conditional_decoder.onnx ONNX
onnx/embed_tokens.onnx ONNX
onnx/language_model.onnx ONNX
onnx/speech_encoder.onnx ONNX
tokenizer.json
tokenizer_config.json