ONNX 模型库
返回模型

说明文档

Step-Audio-EditX

<p align="center"> <img src="assets/logo.png" height=100> </p>

<div align="center"> <a href="https://stepaudiollm.github.io/step-audio-editx/"><img src="https://img.shields.io/static/v1?label=Demo%20Page&message=Web&color=green"></a>   <a href="https://arxiv.org/abs/2511.03601"><img src="https://img.shields.io/static/v1?label=Tech%20Report&message=Arxiv&color=red"></a>   <a href="https://huggingface.co/stepfun-ai/Step-Audio-EditX"><img src="https://img.shields.io/static/v1?label=Step-Audio-EditX&message=HuggingFace&color=yellow"></a>   <a href="https://modelscope.cn/models/stepfun-ai/Step-Audio-EditX"><img src="https://img.shields.io/static/v1?label=Step-Audio-EditX&message=ModelScope&color=blue"></a>   <a href="https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX"><img src="https://img.shields.io/static/v1?label=Space%20Playground&message=HuggingFace&color=yellow"></a>   </div>

🔥🔥🔥 新闻!!

  • 2026年1月23日:🌟 现已支持 vLLM 的训练和推理。感谢 vLLM 团队!
  • 2026年1月23日:💻 我们发布了 GRPO 训练代码。
  • 2026年1月23日:🧩 新模型发布:现支持更多副语言标签。
  • 2025年11月28日:🚀 新模型发布:现支持日语韩语
  • 2025年11月23日:📊 Step-Audio-Edit-Benchmark 已发布!
  • 2025年11月19日:⚙️ 我们发布了新版本模型,支持多音字发音控制,并提升了情感、说话风格和副语言编辑的性能。
  • 2025年11月12日:📦 我们发布了 Step-Audio-EditX优化推理代码模型权重 (HuggingFace; ModelScope) 以及 Step-Audio-Tokenizer (HuggingFace; ModelScope)
  • 2025年11月7日:✨ 演示页面;🎮 HF Space 在线体验
  • 2025年11月6日:👋 我们发布了 Step-Audio-EditX 的技术报告。

简介

我们开源了 Step-Audio-EditX,这是一个强大的30亿参数基于大语言模型的强化学习音频模型,专注于表现力强且可迭代的音频编辑。它擅长编辑情感、说话风格和副语言特征,同时也具备强大的零样本文本转语音(TTS)能力。

📑 开源计划

  • [x] 推理代码
  • [x] 在线演示 (Gradio)
  • [x] Step-Audio-Edit-Benchmark
  • [x] 模型权重
    • [x] Step-Audio-Tokenizer
    • [x] Step-Audio-EditX
    • [x] Step-Audio-EditX-Int4
  • [ ] 训练代码
    • [x] GRPO 训练
    • [ ] SFT 训练
    • [ ] PPO 训练
  • [ ] ⏳ 功能支持计划
    • [ ] 编辑功能
      • [x] 多音字发音控制
      • [x] 更多副语言标签([咳嗽、哭泣、重音等])
      • [ ] 口语词去除
    • [ ] 其他语言
      • [x] 日语、韩语
      • [ ] 阿拉伯语、法语、俄语、西班牙语等

功能特性

  • 零样本 TTS

    • 优秀的普通话、英语、四川话和粤语的零样本 TTS 克隆能力。
    • 使用方言或其他语言时,只需在文本前添加 [Sichuanese] / [Cantonese] / [Japanese] / [Korean] 标签。
    • 🔥 多音字发音控制,只需将多音字替换为拼音即可。
      • [我也想过过过儿过过的生活] -> [我也想guo4guo4guo1儿guo4guo4的生活]
  • 情感和说话风格编辑

    • 卓有成效的情感和风格迭代控制,支持数十种编辑选项。
      • 情感编辑:[ 愤怒开心悲伤兴奋恐惧惊讶厌恶 等 ]
      • 说话风格编辑:[ 撒娇老年儿童耳语严肃慷慨夸张 等 ]
      • 更多情感和说话风格的编辑功能即将推出。敬请期待! 🚀
  • 副语言编辑

    • 精确控制10种副语言特征,生成更自然、更拟人、更具表现力的合成音频。
    • 支持的标签:
      • [ 呼吸声笑声惊讶-哦确认-嗯惊讶-啊惊讶-哇叹气疑问-诶不满-哼 ]
  • 可用标签 <table> <tr> <td rowspan="8" style="vertical-align: middle; text-align:center;" align="center">情感</td> <td align="center"><b>happy</b></td> <td align="center">表达开心</td> <td align="center"><b>angry</b></td> <td align="center">表达愤怒</td> </tr> <tr> <td align="center"><b>sad</b></td> <td align="center">表达悲伤</td> <td align="center"><b>fear</b></td> <td align="center">表达恐惧</td> </tr> <tr> <td align="center"><b>surprised</b></td> <td align="center">表达惊讶</td> <td align="center"><b>confusion</b></td> <td align="center">表达困惑</td> </tr> <tr> <td align="center"><b>empathy</b></td> <td align="center">表达共情和理解</td> <td align="center"><b>embarrass</b></td> <td align="center">表达尴尬</td> </tr> <tr> <td align="center"><b>excited</b></td> <td align="center">表达兴奋和热情</td> <td align="center"><b>depressed</b></td> <td align="center">表达沮丧或消沉的情绪</td> </tr> <tr> <td align="center"><b>admiration</b></td> <td align="center">表达钦佩或尊敬</td> <td align="center"><b>coldness</b></td> <td align="center">表达冷漠和漠不关心</td> </tr> <tr> <td align="center"><b>disgusted</b></td> <td align="center">表达厌恶或反感</td> <td align="center"><b>humour</b></td> <td align="center">表达幽默或俏皮</td> </tr> <tr> </tr> <tr> <td rowspan="17" style="vertical-align: middle; text-align:center;" align="center">说话风格</td> <td align="center"><b>serious</b></td> <td align="center">严肃或庄重的说话方式</td> <td align="center"><b>arrogant</b></td> <td align="center">傲慢的说话方式</td> </tr> <tr> <td align="center"><b>child</b></td> <td align="center">像孩子一样的说话方式</td> <td align="center"><b>older</b></td> <td align="center">听起来像老年人的说话方式</td> </tr> <tr> <td align="center"><b>girl</b></td> <td align="center">轻盈、年轻的女性说话方式</td> <td align="center"><b>pure</b></td> <td align="center">纯洁、天真的说话方式</td> </tr> <tr> <td align="center"><b>sister</b></td> <td align="center">成熟、自信的女性说话方式</td> <td align="center"><b>sweet</b></td> <td align="center">甜美、可爱的说话方式</td> </tr> <tr> <td align="center"><b>exaggerated</b></td> <td align="center">夸张、戏剧化的说话方式</td> <td align="center"><b>ethereal</b></td> <td align="center">轻柔、空灵、梦幻的说话方式</td> </tr> <tr> <td align="center"><b>whisper</b></td> <td align="center">耳语、非常轻柔的说话方式</td> <td align="center"><b>generous</b></td> <td align="center">豪爽、外向、直率的说话方式</td> </tr> <tr> <td align="center"><b>recite</b></td> <td align="center">清晰、节奏感强、像朗诵诗歌的说话方式</td> <td align="center"><b>act_coy</b></td> <td align="center">甜美、俏皮、讨人喜欢的说话方式</td> </tr> <tr> <td align="center"><b>warm</b></td> <td align="center">温暖、友好的说话方式</td> <td align="center"><b>shy</b></td> <td align="center">害羞、胆怯的说话方式</td> </tr> <tr> <td align="center"><b>comfort</b></td> <td align="center">安慰、安抚的说话方式</td> <td align="center"><b>authority</b></td> <td align="center">权威、命令式的说话方式</td> </tr> <tr> <td align="center"><b>chat</b></td> <td align="center">随意、对话式的说话方式</td> <td align="center"><b>radio</b></td> <td align="center">广播式的说话方式</td> </tr> <tr> <td align="center"><b>soulful</b></td> <td align="center">深情、充满感情的说话方式</td> <td align="center"><b>gentle</b></td> <td align="center">温柔、轻柔的说话方式</td> </tr> <tr> <td align="center"><b>story</b></td> <td align="center">叙述、有声书风格的说话方式</td> <td align="center"><b>vivid</b></td> <td align="center">生动、富有表现力的说话方式</td> </tr> <tr> <td align="center"><b>program</b></td> <td align="center">节目主持人/播音员的说话方式</td> <td align="center"><b>news</b></td> <td align="center">新闻播报的说话方式</td> </tr> <tr> <td align="center"><b>advertising</b></td> <td align="center">精致、高端商业配音的说话方式</td> <td align="center"><b>roar</b></td> <td align="center">大声、深沉、咆哮的说话方式</td> </tr> <tr> <td align="center"><b>murmur</b></td> <td align="center">安静、低声的说话方式</td> <td align="center"><b>shout</b></td> <td align="center">大声、尖锐、喊叫的说话方式</td> </tr> <tr> <td align="center"><b>deeply</b></td> <td align="center">深沉、低音调的说话方式</td> <td align="center"><b>loudly</b></td> <td align="center">大声、高音调的说话方式</td> </tr> <tr> </tr> <tr> </tr> <tr> <td rowspan="11" style="vertical-align: middle; text-align:center;" align="center">副语言</td> <td align="center"><b>[sigh]</b></td> <td align="center">叹气声</td> <td align="center"><b>[inhale]</b></td> <td align="center">吸气声</td> </tr>

    <tr> <td align="center"><b>[laugh]</b></td> <td align="center">笑声</td> <td align="center"><b>[chuckle]</b></td> <td align="center">轻笑声</td> </tr>

    <tr> <td align="center"><b>[exhale]</b></td> <td align="center">呼气声</td> <td align="center"><b>[clears throat]</b></td> <td align="center">清嗓子声</td> </tr>

    <tr> <td align="center"><b>[snort]</b></td> <td align="center">哼声</td> <td align="center"><b>[giggle]</b></td> <td align="center">咯咯笑声</td> </tr>

    <tr> <td align="center"><b>[cough]</b></td> <td align="center">咳嗽声</td> <td align="center"><b>[breath]</b></td> <td align="center">呼吸声</td> </tr>

    <tr> <td align="center"><b>[uhm]</b></td> <td align="center">犹豫声:"呃"</td> <td align="center"><b>[Confirmation-en]</b></td> <td align="center">确认声:"嗯"</td> </tr>

    <tr> <td align="center"><b>[Surprise-oh]</b></td> <td align="center">表达惊讶:"哦"</td> <td align="center"><b>[Surprise-ah]</b></td> <td align="center">表达惊讶:"啊"</td> </tr>

    <tr> <td align="center"><b>[Surprise-wa]</b></td> <td align="center">表达惊讶:"哇"</td> <td align="center"><b>[Surprise-yo]</b></td> <td align="center">表达惊讶:"哟"</td> </tr>

    <tr> <td align="center"><b>[Dissatisfaction-hnn]</b></td> <td align="center">不满声:"哼"</td> <td align="center"><b>[Question-ei]</b></td> <td align="center">疑问声:"诶"</td> </tr>

    <tr> <td align="center"><b>[Question-ah]</b></td> <td align="center">疑问声:"啊"</td> <td align="center"><b>[Question-en]</b></td> <td align="center">疑问声:"嗯"</td> </tr>

    <tr> <td align="center"><b>[Question-yi]</b></td> <td align="center">疑问声:"咦"</td> <td align="center"><b>[Question-oh]</b></td> <td align="center">疑问声:"哦"</td> </tr> </table>

功能请求与愿望清单

💡 我们欢迎所有新功能的想法!如果您希望项目中添加某项功能,请在我们的 Discussions 版块发起讨论。

我们将在这里收集社区反馈,并将热门建议纳入未来的开发计划。感谢您的贡献!

演示示例

<table> <tr> <th style="vertical-align : middle;text-align: center">任务</th> <th style="vertical-align : middle;text-align: center">文本</th> <th style="vertical-align : middle;text-align: center">原始音频</th> <th style="vertical-align : middle;text-align: center">编辑后</th> </tr>

<tr> <td align="center"> 情感-恐惧</td> <td align="center"> 我总觉得,有人在跟着我,我能听到奇怪的脚步声。</td> <td align="center">

fear_zh_female_prompt.webm </td> <td align="center">

fear_zh_female_output.webm </td> </tr>

<tr> <td align="center"> 风格-耳语</td> <td align="center"> 比如在工作间隙,做一些简单的伸展运动,放松一下身体,这样,会让你更有精力。</td> <td align="center">

whisper_prompt.webm </td> <td align="center">

whisper_output.webm </td> </tr>

<tr> <td align="center"> 风格-撒娇</td> <td align="center"> 我今天想喝奶茶,可是不知道喝什么口味,你帮我选一下嘛,你选的都好喝~</td> <td align="center">

act_coy_prompt.webm </td> <td align="center">

act_coy_output.webm </td> </tr>

<tr> <td align="center"> 副语言</td> <td align="center"> 你这次又忘记带钥匙了 [Dissatisfaction-hnn],真是拿你没办法。</td> <td align="center">

paralingustic_prompt.webm </td> <td align="center">

paralingustic_output.webm </td> </tr>

<tr> <td align="center"> 降噪</td> <td align="center"> Such legislation was clarified and extended from time to time thereafter. No, the man was not drunk, he wondered how we got tied up with this stranger. Suddenly, my reflexes had gone. It's healthier to cook without sugar.</td> <td align="center">

denoising_prompt.webm </td> <td align="center">

denoising_output.webm </td> </tr>

<tr> <td align="center"> 语速-加快</td> <td align="center"> 上次你说鞋子有点磨脚,我给你买了一双软软的鞋垫。</td> <td align="center">

speed_faster_prompt.webm </td> <td align="center">

speed_faster_output.webm </td> </tr>

</table>

更多示例,请参见 演示页面

模型下载

模型 🤗 Hugging Face ModelScope
Step-Audio-EditX stepfun-ai/Step-Audio-EditX stepfun-ai/Step-Audio-EditX
Step-Audio-EditX stepfun-ai/Step-Audio-EditX-AWQ-4bit stepfun-ai/Step-Audio-EditX-AWQ-4bit
Step-Audio-Tokenizer stepfun-ai/Step-Audio-Tokenizer stepfun-ai/Step-Audio-Tokenizer

模型使用

📜 系统要求

下表显示了运行 Step-Audio-EditX 模型(batch size = 1)的要求:

模型 参数量 设置<br/>(采样频率) GPU 最佳内存
Step-Audio-EditX 3B 41.6Hz 12 GB
  • 需要支持 CUDA 的 NVIDIA GPU。
    • 模型在单张 L40S GPU 上进行了测试。
    • 12GB 只是临界值,16GB 显存会更安全。
  • 测试过的操作系统:Linux

🔧 依赖和安装

git clone https://github.com/stepfun-ai/Step-Audio-EditX.git

cd Step-Audio-EditX
uv sync --refresh
source .venv/bin/activate

git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer
git clone https://huggingface.co/stepfun-ai/Step-Audio-EditX
git clone https://huggingface.co/stepfun-ai/Step-Audio-EditX-AWQ-4bit/

下载模型后,您的下载目录应具有以下结构:

where_you_download_dir
├── Step-Audio-Tokenizer
├── Step-Audio-EditX

使用 Docker 运行

您可以使用提供的 Dockerfile 来设置运行 Step-Audio-EditX 所需的环境。

# 构建 docker
docker build . -t step-audio-editx

# 运行 docker
docker run --rm --gpus all \
    -v /your/code/path:/app \
    -v /your/model/path:/model \
    -p 7860:7860 \
    step-audio-editx

本地推理演示

[!TIP] 为获得最佳性能,请将每次推理的音频保持在30秒以内。

# 零样本克隆
# 生成的音频文件路径为 output/fear_zh_female_prompt_cloned.wav
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-text "我总觉得,有人在跟着我,我能听到奇怪的脚步声。" \
    --prompt-audio "examples/fear_zh_female_prompt.wav" \
    --generated-text "可惜没有如果,已经发生的事情终究是发生了。" \
    --edit-type "clone" \
    --output-dir ./output 

python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-text "His political stance was conservative, and he was particularly close to margaret thatcher." \
    --prompt-audio "examples/zero_shot_en_prompt.wav" \
    --generated-text "Underneath the courtyard is a large underground exhibition room which connects the two buildings.	" \
    --edit-type "clone" \
    --output-dir ./output 

# 编辑
# 每次编辑迭代会生成一个或多个音频文件,例如:output/fear_zh_female_prompt_edited_iter1.wav, output/fear_zh_female_prompt_edited_iter2.wav, ...
# 情感;恐惧
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-text "我总觉得,有人在跟着我,我能听到奇怪的脚步声。" \
    --prompt-audio "examples/fear_zh_female_prompt.wav" \
    --edit-type "emotion" \
    --edit-info "fear" \
    --output-dir ./output 

# 情感;开心
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-text "You know, I just finished that big project and feel so relieved. Everything seems easier and more colorful, what a wonderful feeling!" \
    --prompt-audio "examples/en_happy_prompt.wav" \
    --edit-type "emotion" \
    --edit-info "happy" \
    --output-dir ./output 

# 风格;耳语
# 对于耳语风格,编辑迭代次数应设置为大于1以获得更好的效果
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-text "比如在工作间隙,做一些简单的伸展运动,放松一下身体,这样,会让你更有精力." \
    --prompt-audio "examples/whisper_prompt.wav" \
    --edit-type "style" \
    --edit-info "whisper" \
    --output-dir ./output 

# 副语言 
# 支持的标签:Breathing, Laughter, Surprise-oh, Confirmation-en, Uhm, Surprise-ah, Surprise-wa, Sigh, Question-ei, Dissatisfaction-hnn
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-text "我觉得这个计划大概是可行的,不过还需要再仔细考虑一下。" \
    --prompt-audio "examples/paralingustic_prompt.wav" \
    --generated-text "我觉得这个计划大概是可行的,[Uhm]不过还需要再仔细考虑一下。" \
    --edit-type "paralinguistic" \
    --output-dir ./output 

# 降噪
# 不需要提示文本
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-audio "examples/denoise_prompt.wav"\
    --edit-type "denoise" \
    --output-dir ./output 

# VAD(语音活动检测)
# 不需要提示文本
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-audio "examples/vad_prompt.wav" \
    --edit-type "vad" \
    --output-dir ./output 

# 语速
# 支持的 edit-info:faster, slower, more faster, more slower
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-text "上次你说鞋子有点磨脚,我给你买了一双软软的鞋垫。" \
    --prompt-audio "examples/speed_prompt.wav" \
    --edit-type "speed" \
    --edit-info "more faster" \
    --output-dir ./output 

启动 Web 演示

启动本地服务器进行在线推理。 假设您有一张至少有12GB可用显存的GPU,并且已经下载了所有模型。

# 标准启动
python app.py --model-path where_you_download_dir --tokenizer-path where_you_download_dir --model-source local

# 使用预量化的 AWQ 4-bit 模型,内存高效模式(适用于显存有限的情况,约6-8GB占用)
python app.py \
    --model-path path/to/quantized/model \
    --tokenizer-path where_you_download_dir \
    --model-source local \
    --gpu-memory-utilization 0.1 \
    --enforce-eager \
    --max-num-seqs 1 \
    --cosyvoice-dtype bfloat16 \
    --no-cosyvoice-cuda-graph

可用参数
参数 默认值 描述
--model-path (必需) 模型目录的路径
--model-source auto 模型来源:autolocalmodelscopehuggingface
--gpu-memory-utilization 0.5 vLLM KV缓存的GPU内存比例 (0.0-1.0)
--max-model-len 3072 最大序列长度,影响KV缓存大小
--enforce-eager True 禁用 vLLM CUDA Graphs(节省约0.5GB内存)
--max-num-seqs 1 最大并发序列数(vLLM默认:256,越低内存占用越少)
--dtype bfloat16 模型数据类型:float16bfloat16
--quantization None 量化方法:awqgptqfp8
--cosyvoice-dtype bfloat16 CosyVoice 声码器数据类型:float32bfloat16float16
--no-cosyvoice-cuda-graph False 禁用 CosyVoice CUDA Graphs(节省内存)
--enable-auto-transcribe False 启用自动音频转录
内存使用指南
配置 预计GPU内存 使用场景
标准(默认) ~12-15 GB 最佳质量和速度
内存高效 ~6-8 GB 显存有限,有一些质量权衡
AWQ 4-bit 量化 ~8-10 GB 质量和内存的良好平衡

训练

请参考 script/ReadMe.md

🔄 模型量化(可选)

对于显存有限的用户,可以创建量化版本的模型以减少内存需求:

# 创建 AWQ 4-bit 量化模型
python quantization/awq_quantize.py --model_path path/to/Step-Audio-EditX

# 高级量化选项
python quantization/awq_quantize.py

有关详细的量化选项和参数,请参见 quantization/README.md

技术细节

<img src="assets/architechture.png" width=900> Step-Audio-EditX 包含三个主要组件:

  • 双码本音频分词器,将参考或输入音频转换为离散的token。
  • 音频大语言模型,生成双码本token序列。
  • 音频解码器,使用流匹配方法将音频大语言模型预测的双码本token序列转换回音频波形。

Audio-Edit 支持对所有声音的情感和说话风格进行迭代控制,在 SFT 和 PPO 训练期间利用大间隔数据。

评估

Step-Audio-EditX 与闭源模型的比较。

  • Step-Audio-EditX 在零样本克隆和情感控制方面均优于 Minimax 和 Doubao。
  • Step-Audio-EditX 的情感编辑仅需一次迭代就能显著改善所有三个模型的情感控制音频输出。随着进一步迭代,它们的整体性能继续提升。

<div align="center"> <img src="assets/emotion-eval.png" width=800 > </div>

在闭源模型上的泛化能力。

  • 对于情感和说话风格编辑,领先闭源系统的内置声音具有相当的上下文能力,使它们能够部分传达文本中的情感。经过 Step-Audio-EditX 单轮编辑后,所有语音模型的情感和风格准确性都显示出显著提升。在接下来的两轮迭代中观察到进一步提升,有力地证明了我们模型的强大泛化能力。

  • 对于副语言编辑,经过 Step-Audio-EditX 编辑后,副语言再现的性能与闭源模型内置声音直接合成原生副语言内容所达到的性能相当。(sub 表示用原生词替换副语言标签)

<div align="center">

<table border="1" cellspacing="0" cellpadding="5" style="border-collapse: collapse; font-family: sans-serif; width: auto;"> <caption><b>表:情感、说话风格和副语言编辑在闭源模型上的泛化能力。</b></caption> <thead> <tr> <th rowspan="2" align="center" style="vertical-align: bottom;">语言</th> <th rowspan="2" align="center" style="vertical-align: bottom;">模型</th> <th colspan="4" style="border-bottom: 1px solid black;">情感 ↑</th> <th colspan="4" style="border-bottom: 1px solid black;">说话风格 ↑</th> <th colspan="3" style="border-bottom: 1px solid black; border-left: 1px solid black;">副语言 ↑</th> </tr> <tr> <th>Iter<sub>0</sub></th> <th>Iter<sub>1</sub></th> <th>Iter<sub>2</sub></th> <th>Iter<sub>3</sub></th> <th style="border-left: 1px solid #ccc;">Iter<sub>0</sub></th> <th>Iter<sub>1</sub></th> <th>Iter<sub>2</sub></th> <th>Iter<sub>3</sub></th> <th style="border-left: 1px solid black;">Iter<sub>0</sub></th> <th>sub</th> <th>Iter<sub>1</sub></th> </tr> </thead> <tbody> <tr> <td rowspan="4" align="center" style="font-weight: bold; vertical-align: middle;">中文</td> <td align="left">MiniMax-2.6-hd</td> <td align="center">71.6</td> <td align="center">78.6</td> <td align="center">81.2</td> <td align="center"><b>83.4</b></td> <td align="center" style="border-left: 1px solid #ccc;">36.7</td> <td align="center">58.8</td> <td align="center">63.1</td> <td align="center"><b>67.3</b></td> <td align="center" style="border-left: 1px solid black;">1.73</td> <td align="center">2.80</td> <td align="center">2.90</td> </tr> <tr> <td align="left">Doubao-Seed-TTS-2.0</td> <td align="center">67.4</td> <td align="center">77.8</td> <td align="center">80.6</td> <td align="center"><b>82.8</b></td> <td align="center" style="border-left: 1px solid #ccc;">38.2</td> <td align="center">60.2</td> <td align="center"><b>65.0</b></td> <td align="center">64.9</td> <td align="center" style="border-left: 1px solid black;">1.67</td> <td align="center">2.81</td> <td align="center">2.90</td> </tr> <tr> <td align="left">GPT-4o-mini-TTS</td> <td align="center">62.6</td> <td align="center">76.0</td> <td align="center">77.0</td> <td align="center"><b>81.8</b></td> <td align="center" style="border-left: 1px solid #ccc;">45.9</td> <td align="center">64.0</td> <td align="center">65.7</td> <td align="center"><b>69.7</b></td> <td align="center" style="border-left: 1px solid black;">1.71</td> <td align="center">2.88</td> <td align="center">2.93</td> </tr> <tr style="border-bottom: 1px solid black;"> <td align="left">ElevenLabs-v2</td> <td align="center">60.4</td> <td align="center">74.6</td> <td align="center">77.4</td> <td align="center"><b>79.2</b></td> <td align="center" style="border-left: 1px solid #ccc;">43.8</td> <td align="center">63.3</td> <td align="center">69.7</td> <td align="center"><b>70.8</b></td> <td align="center" style="border-left: 1px solid black;">1.70</td> <td align="center">2.71</td> <td align="center">2.92</td> </tr> <tr> <td rowspan="4" align="center" style="font-weight: bold; vertical-align: middle;">英文</td> <td align="left">MiniMax-2.6-hd</td> <td align="center">55.0</td> <td align="center">64.0</td> <td align="center">64.2</td> <td align="center"><b>66.4</b></td> <td align="center" style="border-left: 1px solid #ccc;">51.9</td> <td align="center">60.3</td> <td align="center">62.3</td> <td align="center"><b>64.3</b></td> <td align="center" style="border-left: 1px solid black;">1.72</td> <td align="center">2.87</td> <td align="center">2.88</td> </tr> <tr> <td align="left">Doubao-Seed-TTS-2.0</td> <td align="center">53.8</td> <td align="center">65.8</td> <td align="center">65.8</td> <td align="center"><b>66.2</b></td> <td align="center" style="border-left: 1px solid #ccc;">47.0</td> <td align="center">62.0</td> <td align="center"><b>62.7</b></td> <td align="center">62.3</td> <td align="center" style="border-left: 1px solid black;">1.72</td> <td align="center">2.75</td> <td align="center">2.92</td> </tr> <tr> <td align="left">GPT-4o-mini-TTS</td> <td align="center">56.8</td> <td align="center">61.4</td> <td align="center">64.8</td> <td align="center"><b>65.2</b></td> <td align="center" style="border-left: 1px solid #ccc;">52.3</td> <td align="center">62.3</td> <td align="center">62.4</td> <td align="center"><b>63.4</b></td> <td align="center" style="border-left: 1px solid black;">1.90</td> <td align="center">2.90</td> <td align="center">2.88</td> </tr> <tr style="border-bottom: 1px solid black;"> <td align="left">ElevenLabs-v2</td> <td align="center">51.0</td> <td align="center">61.2</td> <td align="center">64.0</td> <td align="center"><b>65.2</b></td> <td align="center" style="border-left: 1px solid #ccc;">51.0</td> <td align="center">62.1</td> <td align="center">62.6</td> <td align="center"><b>64.0</b></td> <td align="center" style="border-left: 1px solid black;">1.93</td> <td align="center">2.87</td> <td align="center">2.88</td> </tr> <tr> <td rowspan="4" align="center" style="font-weight: bold; vertical-align: middle;">平均</td> <td align="left">MiniMax-2.6-hd</td> <td align="center">63.3</td> <td align="center">71.3</td> <td align="center">72.7</td> <td align="center"><b>74.9</b></td> <td align="center" style="border-left: 1px solid #ccc;">44.2</td> <td align="center">59.6</td> <td align="center">62.7</td> <td align="center"><b>65.8</b></td> <td align="center" style="border-left: 1px solid black;">1.73</td> <td align="center">2.84</td> <td align="center">2.89</td> </tr> <tr> <td align="left">Doubao-Seed-TTS-2.0</td> <td align="center">60.6</td> <td align="center">71.8</td> <td align="center">73.2</td> <td align="center"><b>74.5</b></td> <td align="center" style="border-left: 1px solid #ccc;">42.6</td> <td align="center">61.1</td> <td align="center"><b>63.9</b></td> <td align="center">63.6</td> <td align="center" style="border-left: 1px solid black;">1.70</td> <td align="center">2.78</td> <td align="center">2.91</td> </tr> <tr> <td align="left">GPT-4o-mini-TTS</td> <td align="center">59.7</td> <td align="center">68.7</td> <td align="center">70.9</td> <td align="center"><b>73.5</b></td> <td align="center" style="border-left: 1px solid #ccc;">49.1</td> <td align="center">63.2</td> <td align="center">64.1</td> <td align="center"><b>66.6</b></td> <td align="center" style="border-left: 1px solid black;">1.81</td> <td align="center">2.89</td> <td align="center">2.90</td> </tr> <tr> <td align="left">ElevenLabs-v2</td> <td align="center">55.7</td> <td align="center">67.9</td> <td align="center">70.7</td> <td align="center"><b>72.2</b></td> <td align="center" style="border-left: 1px solid #ccc;">47.4</td> <td align="center">62.7</td> <td align="center">66.1</td> <td align="center"><b>67.4</b></td> <td align="center" style="border-left: 1px solid black;">1.82</td> <td align="center">2.79</td> <td align="center">2.90</td> </tr> </tbody> </table>

</div>

致谢

本项目的部分代码和数据来自:

感谢所有开源项目对本项目的贡献!

许可协议

  • 本开源仓库中的代码采用 Apache 2.0 许可证授权。

引用

@misc{yan2025stepaudioeditxtechnicalreport,
      title={Step-Audio-EditX Technical Report}, 
      author={Chao Yan and Boyong Wu and Peng Yang and Pengfei Tan and Guoqiang Hu and Yuxin Zhang and Xiangyu and Zhang and Fei Tian and Xuerui Yang and Xiangyu Zhang and Daxin Jiang and Gang Yu},
      year={2025},
      eprint={2511.03601},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2511.03601}, 
}

⚠️ 使用免责声明

  • 请勿将此模型用于任何未经授权的活动,包括但不限于:
    • 未经许可的语音克隆
    • 身份冒充
    • 欺诈
    • 深度伪造或任何其他非法目的
  • 使用本模型时,请确保遵守当地法律法规,并遵循道德准则。
  • 模型开发者不对任何滥用或误用本技术的行为负责。

我们倡导负责任的生成式 AI 研究,并敦促社区在 AI 开发和应用中坚持安全和道德标准。如果您对本模型的使用有任何疑虑,请随时与我们联系。

Star 历史

Star History Chart

stepfun-ai/Step-Audio-EditX-AWQ-4bit

作者 stepfun-ai

↓ 30 ♥ 2

创建时间: 2025-11-19 02:33:53+00:00

更新时间: 2026-01-24 03:32:06+00:00

在 Hugging Face 上查看

文件 (19)

.gitattributes
CosyVoice-300M-25Hz/FLOW_VERSION
CosyVoice-300M-25Hz/campplus.onnx ONNX
CosyVoice-300M-25Hz/cosyvoice.yaml
CosyVoice-300M-25Hz/flow.pt
CosyVoice-300M-25Hz/hift.pt
CosyVoice-300M-25Hz/speech_tokenizer_v1.onnx ONNX
README.md
assets/architechture.png
assets/emotion-eval.png
assets/logo.png
assets/test.wav
config.json
configuration_step1.py
generation_config.json
model.safetensors
recipe.yaml
tokenizer.model
tokenizer_config.json