说明文档
Step-Audio-EditX
<p align="center"> <img src="assets/logo.png" height=100> </p>
<div align="center"> <a href="https://stepaudiollm.github.io/step-audio-editx/"><img src="https://img.shields.io/static/v1?label=Demo%20Page&message=Web&color=green"></a> <a href="https://arxiv.org/abs/2511.03601"><img src="https://img.shields.io/static/v1?label=Tech%20Report&message=Arxiv&color=red"></a> <a href="https://huggingface.co/stepfun-ai/Step-Audio-EditX"><img src="https://img.shields.io/static/v1?label=Step-Audio-EditX&message=HuggingFace&color=yellow"></a> <a href="https://modelscope.cn/models/stepfun-ai/Step-Audio-EditX"><img src="https://img.shields.io/static/v1?label=Step-Audio-EditX&message=ModelScope&color=blue"></a> <a href="https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX"><img src="https://img.shields.io/static/v1?label=Space%20Playground&message=HuggingFace&color=yellow"></a> </div>
🔥🔥🔥 新闻!!
- 2026年1月23日:🌟 现已支持 vLLM 的训练和推理。感谢 vLLM 团队!
- 2026年1月23日:💻 我们发布了 GRPO 训练代码。
- 2026年1月23日:🧩 新模型发布:现已支持更多副语言标签。
- 2025年11月28日:🚀 新模型发布:现已支持日语和韩语。
- 2025年11月23日:📊 Step-Audio-Edit-Benchmark 已发布!
- 2025年11月19日:⚙️ 我们发布了模型的新版本,支持多音字发音控制,并提升了情感、说话风格和副语言编辑的性能。
- 2025年11月12日:📦 我们发布了 Step-Audio-EditX 的优化推理代码和模型权重(HuggingFace;ModelScope)以及 Step-Audio-Tokenizer(HuggingFace;ModelScope)
- 2025年11月7日:✨ 演示页面;🎮 HF Space 在线体验
- 2025年11月6日:👋 我们发布了 Step-Audio-EditX 的技术报告。
简介
我们正在开源 Step-Audio-EditX,这是一个强大的30亿参数基于大语言模型的强化学习音频模型,专注于富有表现力和迭代的音频编辑。它擅长编辑情感、说话风格和副语言特征,同时还具有强大的零样本文本转语音(TTS)能力。
📑 开源计划
- [x] 推理代码
- [x] 在线演示(Gradio)
- [x] Step-Audio-Edit-Benchmark
- [x] 模型检查点
- [x] Step-Audio-Tokenizer
- [x] Step-Audio-EditX
- [x] Step-Audio-EditX-Int4
- [ ] 训练代码
- [x] GRPO 训练
- [ ] SFT 训练
- [ ] PPO 训练
- [ ] ⏳ 功能支持计划
- [ ] 编辑功能
- [x] 多音字发音控制
- [x] 更多副语言标签([咳嗽、哭泣、压力等])
- [ ] 口癖移除
- [ ] 其他语言
- [x] 日语、韩语
- [ ] 阿拉伯语、法语、俄语、西班牙语等
- [ ] 编辑功能
在线演示
阶跃星辰音频工作室
微信群
您可以扫描以下二维码加入我们的微信群进行交流讨论。 <div align="center"> <img src="https://cdn-uploads.huggingface.co/production/uploads/66518fd07d8cb2629a514c18/DRdnp1SN-yxhlNOfy26mE.jpeg" width="200" alt="QR code"> </div>
功能特性
-
零样本 TTS
- 出色的普通话、英语、四川话和粤语零样本 TTS 克隆能力。
- 使用方言或其他语言时,只需在文本前添加
[Sichuanese]/[Cantonese]/[Japanese]/[Korean]标签。 - 🔥 多音字发音控制,您只需将多音字替换为拼音。
- [我也想过过过儿过过的生活] -> [我也想guo4guo4guo1儿guo4guo4的生活]
-
情感和说话风格编辑
- 对情感和风格具有卓越的迭代控制能力,支持数十种编辑选项。
- 情感编辑:[ 愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶 等 ]
- 说话风格编辑:[ 撒娇、老人、小孩、耳语、严肃、大方、夸张 等 ]
- 更多情感和说话风格编辑功能即将推出。敬请期待! 🚀
- 对情感和风格具有卓越的迭代控制能力,支持数十种编辑选项。
-
副语言编辑
- 精确控制10种副语言特征,生成更自然、更像人类、更有表现力的合成音频。
- 支持的标签:
- [ 呼吸声、笑声、惊讶-哦、确认-嗯、呃、惊讶-啊、惊讶-哇、叹气、疑问-诶、不满-哼 ]
-
可用标签 <table> <tr> <td rowspan="8" style="vertical-align: middle; text-align:center;" align="center">情感</td> <td align="center"><b>happy</b></td> <td align="center">表达开心</td> <td align="center"><b>angry</b></td> <td align="center">表达愤怒</td> </tr> <tr> <td align="center"><b>sad</b></td> <td align="center">表达悲伤</td> <td align="center"><b>fear</b></td> <td align="center">表达恐惧</td> </tr> <tr> <td align="center"><b>surprised</b></td> <td align="center">表达惊讶</td> <td align="center"><b>confusion</b></td> <td align="center">表达困惑</td> </tr> <tr> <td align="center"><b>empathy</b></td> <td align="center">表达共情和理解</td> <td align="center"><b>embarrass</b></td> <td align="center">表达尴尬</td> </tr> <tr> <td align="center"><b>excited</b></td> <td align="center">表达兴奋和热情</td> <td align="center"><b>depressed</b></td> <td align="center">表达沮丧或消沉的情绪</td> </tr> <tr> <td align="center"><b>admiration</b></td> <td align="center">表达钦佩或尊重</td> <td align="center"><b>coldness</b></td> <td align="center">表达冷漠</td> </tr> <tr> <td align="center"><b>disgusted</b></td> <td align="center">表达厌恶或反感</td> <td align="center"><b>humour</b></td> <td align="center">表达幽默或顽皮</td> </tr> <tr> </tr> <tr> <td rowspan="17" style="vertical-align: middle; text-align:center;" align="center">说话风格</td> <td align="center"><b>serious</b></td> <td align="center">以严肃或庄重的方式说话</td> <td align="center"><b>arrogant</b></td> <td align="center">以傲慢的方式说话</td> </tr> <tr> <td align="center"><b>child</b></td> <td align="center">以孩子气的方式说话</td> <td align="center"><b>older</b></td> <td align="center">以老年人般的方式说话</td> </tr> <tr> <td align="center"><b>girl</b></td> <td align="center">以轻盈、青春的女性方式说话</td> <td align="center"><b>pure</b></td> <td align="center">以纯洁、天真的方式说话</td> </tr> <tr> <td align="center"><b>sister</b></td> <td align="center">以成熟、自信的女性方式说话</td> <td align="center"><b>sweet</b></td> <td align="center">以甜美、可爱的方式说话</td> </tr> <tr> <td align="center"><b>exaggerated</b></td> <td align="center">以夸张、戏剧化的方式说话</td> <td align="center"><b>ethereal</b></td> <td align="center">以柔和、轻盈、梦幻的方式说话</td> </tr> <tr> <td align="center"><b>whisper</b></td> <td align="center">以耳语、非常轻柔的方式说话</td> <td align="center"><b>generous</b></td> <td align="center">以豪爽、外向、直率的方式说话</td> </tr> <tr> <td align="center"><b>recite</b></td> <td align="center">以清晰、节奏良好的朗诵方式说话</td> <td align="center"><b>act_coy</b></td> <td align="center">以甜美、俏皮、讨人喜欢的方式说话</td> </tr> <tr> <td align="center"><b>warm</b></td> <td align="center">以温暖、友好的方式说话</td> <td align="center"><b>shy</b></td> <td align="center">以害羞、胆怯的方式说话</td> </tr> <tr> <td align="center"><b>comfort</b></td> <td align="center">以安慰、令人安心的方式说话</td> <td align="center"><b>authority</b></td> <td align="center">以权威、命令式的方式说话</td> </tr> <tr> <td align="center"><b>chat</b></td> <td align="center">以随意、对话式的方式说话</td> <td align="center"><b>radio</b></td> <td align="center">以广播播音的方式说话</td> </tr> <tr> <td align="center"><b>soulful</b></td> <td align="center">以深情、感性的方式说话</td> <td align="center"><b>gentle</b></td> <td align="center">以温柔、柔和的方式说话</td> </tr> <tr> <td align="center"><b>story</b></td> <td align="center">以叙述、有声书风格的方式说话</td> <td align="center"><b>vivid</b></td> <td align="center">以生动、富有表现力的方式说话</td> </tr> <tr> <td align="center"><b>program</b></td> <td align="center">以节目主持人/演讲者的方式说话</td> <td align="center"><b>news</b></td> <td align="center">以新闻播报的方式说话</td> </tr> <tr> <td align="center"><b>advertising</b></td> <td align="center">以精致、高端商业配音的方式说话</td> <td align="center"><b>roar</b></td> <td align="center">以大声、深沉、咆哮的方式说话</td> </tr> <tr> <td align="center"><b>murmur</b></td> <td align="center">以安静、低沉的方式说话</td> <td align="center"><b>shout</b></td> <td align="center">以大声、尖锐、喊叫的方式说话</td> </tr> <tr> <td align="center"><b>deeply</b></td> <td align="center">以深沉、低音调的方式说话</td> <td align="center"><b>loudly</b></td> <td align="center">以大声、高音调的方式说话</td> </tr> <tr> </tr> <tr> </tr> <tr> <td rowspan="11" style="vertical-align: middle; text-align:center;" align="center">副语言</td> <td align="center"><b>[sigh]</b></td> <td align="center">叹气声</td> <td align="center"><b>[inhale]</b></td> <td align="center">吸气声</td> </tr>
<tr> <td align="center"><b>[laugh]</b></td> <td align="center">笑声</td> <td align="center"><b>[chuckle]</b></td> <td align="center">轻笑/咯咯笑</td> </tr>
<tr> <td align="center"><b>[exhale]</b></td> <td align="center">呼气声</td> <td align="center"><b>[clears throat]</b></td> <td align="center">清嗓子声</td> </tr>
<tr> <td align="center"><b>[snort]</b></td> <td align="center">喷鼻息声</td> <td align="center"><b>[giggle]</b></td> <td align="center">傻笑/咯咯笑</td> </tr>
<tr> <td align="center"><b>[cough]</b></td> <td align="center">咳嗽声</td> <td align="center"><b>[breath]</b></td> <td align="center">呼吸声</td> </tr>
<tr> <td align="center"><b>[uhm]</b></td> <td align="center">犹豫声:"嗯"</td> <td align="center"><b>[Confirmation-en]</b></td> <td align="center">确认声:"嗯"</td> </tr>
<tr> <td align="center"><b>[Surprise-oh]</b></td> <td align="center">表达惊讶:"哦"</td> <td align="center"><b>[Surprise-ah]</b></td> <td align="center">表达惊讶:"啊"</td> </tr>
<tr> <td align="center"><b>[Surprise-wa]</b></td> <td align="center">表达惊讶:"哇"</td> <td align="center"><b>[Surprise-yo]</b></td> <td align="center">表达惊讶:"哟"</td> </tr>
<tr> <td align="center"><b>[Dissatisfaction-hnn]</b></td> <td align="center">不满声:"哼"</td> <td align="center"><b>[Question-ei]</b></td> <td align="center">疑问声:"诶"</td> </tr>
<tr> <td align="center"><b>[Question-ah]</b></td> <td align="center">疑问声:"啊"</td> <td align="center"><b>[Question-en]</b></td> <td align="center">疑问声:"嗯"</td> </tr>
<tr> <td align="center"><b>[Question-yi]</b></td> <td align="center">疑问声:"咦"</td> <td align="center"><b>[Question-oh]</b></td> <td align="center">疑问声:"哦"</td> </tr> </table>
功能请求 & 许愿清单
💡 我们欢迎所有关于新功能的想法!如果您希望看到某个功能被添加到项目中,请在我们的讨论区发起讨论。
我们将在这里收集社区反馈,并将热门建议纳入我们未来的开发计划。感谢您的贡献!
演示示例
<table> <tr> <th style="vertical-align : middle;text-align: center">任务</th> <th style="vertical-align : middle;text-align: center">文本</th> <th style="vertical-align : middle;text-align: center">源音频</th> <th style="vertical-align : middle;text-align: center">编辑后</th> </tr>
<tr> <td align="center"> 情感-恐惧</td> <td align="center"> 我总觉得,有人在跟着我,我能听到奇怪的脚步声。</td> <td align="center">
fear_zh_female_prompt.webm </td> <td align="center">
fear_zh_female_output.webm </td> </tr>
<tr> <td align="center"> 风格-耳语</td> <td align="center"> 比如在工作间隙,做一些简单的伸展运动,放松一下身体,这样,会让你更有精力。</td> <td align="center">
whisper_prompt.webm </td> <td align="center">
whisper_output.webm </td> </tr>
<tr> <td align="center"> 风格-撒娇</td> <td align="center"> 我今天想喝奶茶,可是不知道喝什么口味,你帮我选一下嘛,你选的都好喝~</td> <td align="center">
act_coy_prompt.webm </td> <td align="center">
act_coy_output.webm </td> </tr>
<tr> <td align="center"> 副语言</td> <td align="center"> 你这次又忘记带钥匙了 [Dissatisfaction-hnn],真是拿你没办法。</td> <td align="center">
paralingustic_prompt.webm </td> <td align="center">
paralingustic_output.webm </td> </tr>
<tr> <td align="center"> 降噪</td> <td align="center"> Such legislation was clarified and extended from time to time thereafter. No, the man was not drunk, he wondered how we got tied up with this stranger. Suddenly, my reflexes had gone. It's healthier to cook without sugar.</td> <td align="center">
denoising_prompt.webm </td> <td align="center">
denoising_output.webm </td> </tr>
<tr> <td align="center"> 语速-加快</td> <td align="center"> 上次你说鞋子有点磨脚,我给你买了一双软软的鞋垫。</td> <td align="center">
speed_faster_prompt.webm </td> <td align="center">
speed_faster_output.webm </td> </tr>
</table>
更多示例,请查看演示页面。
模型下载
| 模型 | 🤗 Hugging Face | ModelScope |
|---|---|---|
| Step-Audio-EditX | stepfun-ai/Step-Audio-EditX | stepfun-ai/Step-Audio-EditX |
| Step-Audio-EditX | stepfun-ai/Step-Audio-EditX-AWQ-4bit | stepfun-ai/Step-Audio-EditX-AWQ-4bit |
| Step-Audio-Tokenizer | stepfun-ai/Step-Audio-Tokenizer | stepfun-ai/Step-Audio-Tokenizer |
模型使用
📜 系统要求
下表显示了运行 Step-Audio-EditX 模型(批大小 = 1)的要求:
| 模型 | 参数量 | 设置<br/>(采样频率) | GPU 最佳内存 |
|---|---|---|---|
| Step-Audio-EditX | 3B | 41.6Hz | 12 GB |
- 需要支持 CUDA 的 NVIDIA GPU。
- 模型在单张 L40S GPU 上进行了测试。
- 12GB 只是临界值,16GB 显存会更安全。
- 测试过的操作系统:Linux
🔧 依赖和安装
- Python >= 3.12
- PyTorch >= 2.9.1
- CUDA Toolkit
git clone https://github.com/stepfun-ai/Step-Audio-EditX.git
cd Step-Audio-EditX
uv sync --refresh
source .venv/bin/activate
git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer
git clone https://huggingface.co/stepfun-ai/Step-Audio-EditX
git clone https://huggingface.co/stepfun-ai/Step-Audio-EditX-AWQ-4bit/
下载模型后,您的下载目录应具有以下结构:
where_you_download_dir
├── Step-Audio-Tokenizer
├── Step-Audio-EditX
使用 Docker 运行
您可以使用提供的 Dockerfile 来设置运行 Step-Audio-EditX 所需的环境。
# 构建 docker
docker build . -t step-audio-editx
# 运行 docker
docker run --rm --gpus all \
-v /your/code/path:/app \
-v /your/model/path:/model \
-p 7860:7860 \
step-audio-editx
本地推理演示
[!TIP] 为获得最佳性能,请保持每次推理的音频时长在 30 秒以内。
# 零样本克隆
# 生成的音频文件路径为 output/fear_zh_female_prompt_cloned.wav
python3 tts_infer.py \
--model-path where_you_download_dir \
--tokenizer-path where_you_download_dir \
--prompt-text "我总觉得,有人在跟着我,我能听到奇怪的脚步声。" \
--prompt-audio "examples/fear_zh_female_prompt.wav" \
--generated-text "可惜没有如果,已经发生的事情终究是发生了。" \
--edit-type "clone" \
--output-dir ./output
python3 tts_infer.py \
--model-path where_you_download_dir \
--tokenizer-path where_you_download_dir \
--prompt-text "His political stance was conservative, and he was particularly close to margaret thatcher." \
--prompt-audio "examples/zero_shot_en_prompt.wav" \
--generated-text "Underneath the courtyard is a large underground exhibition room which connects the two buildings. " \
--edit-type "clone" \
--output-dir ./output
# 编辑
# 每次编辑迭代会生成一个或多个音频文件,例如:output/fear_zh_female_prompt_edited_iter1.wav, output/fear_zh_female_prompt_edited_iter2.wav, ...
# 情感;恐惧
python3 tts_infer.py \
--model-path where_you_download_dir \
--tokenizer-path where_you_download_dir \
--prompt-text "我总觉得,有人在跟着我,我能听到奇怪的脚步声。" \
--prompt-audio "examples/fear_zh_female_prompt.wav" \
--edit-type "emotion" \
--edit-info "fear" \
--output-dir ./output
# 情感;开心
python3 tts_infer.py \
--model-path where_you_download_dir \
--tokenizer-path where_you_download_dir \
--prompt-text "You know, I just finished that big project and feel so relieved. Everything seems easier and more colorful, what a wonderful feeling!" \
--prompt-audio "examples/en_happy_prompt.wav" \
--edit-type "emotion" \
--edit-info "happy" \
--output-dir ./output
# 风格;耳语
# 对于耳语风格,编辑迭代次数应设置为大于 1 以获得更好的结果。
python3 tts_infer.py \
--model-path where_you_download_dir \
--tokenizer-path where_you_download_dir \
--prompt-text "比如在工作间隙,做一些简单的伸展运动,放松一下身体,这样,会让你更有精力." \
--prompt-audio "examples/whisper_prompt.wav" \
--edit-type "style" \
--edit-info "whisper" \
--output-dir ./output
# 副语言
# 支持的标签:Breathing, Laughter, Surprise-oh, Confirmation-en, Uhm, Surprise-ah, Surprise-wa, Sigh, Question-ei, Dissatisfaction-hnn
python3 tts_infer.py \
--model-path where_you_download_dir \
--tokenizer-path where_you_download_dir \
--prompt-text "我觉得这个计划大概是可行的,不过还需要再仔细考虑一下。" \
--prompt-audio "examples/paralingustic_prompt.wav" \
--generated-text "我觉得这个计划大概是可行的,[Uhm]不过还需要再仔细考虑一下。" \
--edit-type "paralinguistic" \
--output-dir ./output
# 降噪
# 不需要提示文本。
python3 tts_infer.py \
--model-path where_you_download_dir \
--tokenizer-path where_you_download_dir \
--prompt-audio "examples/denoise_prompt.wav"\
--edit-type "denoise" \
--output-dir ./output
# VAD(语音活动检测)
# 不需要提示文本。
python3 tts_infer.py \
--model-path where_you_download_dir \
--tokenizer-path where_you_download_dir \
--prompt-audio "examples/vad_prompt.wav" \
--edit-type "vad" \
--output-dir ./output
# 语速
# 支持的 edit-info:faster, slower, more faster, more slower
python3 tts_infer.py \
--model-path where_you_download_dir \
--tokenizer-path where_you_download_dir \
--prompt-text "上次你说鞋子有点磨脚,我给你买了一双软软的鞋垫。" \
--prompt-audio "examples/speed_prompt.wav" \
--edit-type "speed" \
--edit-info "more faster" \
--output-dir ./output
启动 Web 演示
启动本地服务器进行在线推理。 假设您有一块至少 12GB 内存的 GPU,并且已经下载了所有模型。
# 标准启动
python app.py --model-path where_you_download_dir --tokenizer-path where_you_download_dir --model-source local
# 使用预量化的 AWQ 4 位模型,内存高效模式(适用于显存有限的情况,约 6-8GB 使用量)
python app.py \
--model-path path/to/quantized/model \
--tokenizer-path where_you_download_dir \
--model-source local \
--gpu-memory-utilization 0.1 \
--enforce-eager \
--max-num-seqs 1 \
--cosyvoice-dtype bfloat16 \
--no-cosyvoice-cuda-graph
可用参数
| 参数 | 默认值 | 描述 |
|---|---|---|
--model-path |
(必填) | 模型目录路径 |
--model-source |
auto |
模型来源:auto、local、modelscope、huggingface |
--gpu-memory-utilization |
0.5 |
vLLM KV 缓存的 GPU 内存比例(0.0-1.0) |
--max-model-len |
3072 |
最大序列长度,影响 KV 缓存大小 |
--enforce-eager |
True |
禁用 vLLM CUDA 图(节省约 0.5GB 内存) |
--max-num-seqs |
1 |
最大并发序列数(vLLM 默认:256,越低越省内存) |
--dtype |
bfloat16 |
模型数据类型:float16、bfloat16 |
--quantization |
None |
量化方法:awq、gptq、fp8 |
--cosyvoice-dtype |
bfloat16 |
CosyVoice 声码器数据类型:float32、bfloat16、float16 |
--no-cosyvoice-cuda-graph |
False |
禁用 CosyVoice CUDA 图(节省内存) |
--enable-auto-transcribe |
False |
启用自动音频转录 |
内存使用指南
| 配置 | 预估 GPU 内存 | 使用场景 |
|---|---|---|
| 标准(默认) | ~12-15 GB | 最佳质量和速度 |
| 内存高效 | ~6-8 GB | 显存有限,有一定质量权衡 |
| AWQ 4 位量化 | ~8-10 GB | 质量和内存的良好平衡 |
训练
请参考 script/ReadMe.md
🔄 模型量化(可选)
对于显存有限的用户,可以创建量化版本的模型以减少内存需求:
# 创建 AWQ 4 位量化模型
python quantization/awq_quantize.py --model_path path/to/Step-Audio-EditX
# 高级量化选项
python quantization/awq_quantize.py
有关详细的量化选项和参数,请参阅 quantization/README.md。
技术细节
<img src="assets/architechture.png" width=900> Step-Audio-EditX 包含三个主要组件:
- 双码本音频分词器,将参考或输入音频转换为离散标记。
- 音频大语言模型,生成双码本标记序列。
- 音频解码器,使用流匹配方法将音频大语言模型预测的双码本标记序列转换回音频波形。
Audio-Edit 能够对所有声音的情感和说话风格进行迭代控制,在 SFT 和 PPO 训练期间利用大间隔数据。
评估
Step-Audio-EditX 与闭源模型的比较。
- Step-Audio-EditX 在零样本克隆和情感控制方面均优于 Minimax 和 Doubao。
- Step-Audio-EditX 的情感编辑仅需一次迭代就能显著改善所有三个模型的情感控制音频输出。随着进一步迭代,它们的整体性能持续提升。
<div align="center"> <img src="assets/emotion-eval.png" width=800 > </div>
在闭源模型上的泛化能力。
-
对于情感和说话风格编辑,领先闭源系统的内置声音具有相当的上下文能力,能够部分传达文本中的情感。经过 Step-Audio-EditX 一轮编辑后,所有语音模型的情感和风格准确率都显示出显著提升。在接下来的两次迭代中观察到进一步提升,有力地证明了我们模型的强大泛化能力。
-
对于副语言编辑,经过 Step-Audio-EditX 编辑后,副语言重现的性能与闭源模型内置声音直接合成原生副语言内容所达到的性能相当。(sub 表示用原生词替换副语言标签)
<div align="center">
<table border="1" cellspacing="0" cellpadding="5" style="border-collapse: collapse; font-family: sans-serif; width: auto;"> <caption><b>表:情感、说话风格和副语言编辑在闭源模型上的泛化能力。</b></caption> <thead> <tr> <th rowspan="2" align="center" style="vertical-align: bottom;">语言</th> <th rowspan="2" align="center" style="vertical-align: bottom;">模型</th> <th colspan="4" style="border-bottom: 1px solid black;">情感 ↑</th> <th colspan="4" style="border-bottom: 1px solid black;">说话风格 ↑</th> <th colspan="3" style="border-bottom: 1px solid black; border-left: 1px solid black;">副语言 ↑</th> </tr> <tr> <th>迭代<sub>0</sub></th> <th>迭代<sub>1</sub></th> <th>迭代<sub>2</sub></th> <th>迭代<sub>3</sub></th> <th style="border-left: 1px solid #ccc;">迭代<sub>0</sub></th> <th>迭代<sub>1</sub></th> <th>迭代<sub>2</sub></th> <th>迭代<sub>3</sub></th> <th style="border-left: 1px solid black;">迭代<sub>0</sub></th> <th>sub</th> <th>迭代<sub>1</sub></th> </tr> </thead> <tbody> <tr> <td rowspan="4" align="center" style="font-weight: bold; vertical-align: middle;">中文</td> <td align="left">MiniMax-2.6-hd</td> <td align="center">71.6</td> <td align="center">78.6</td> <td align="center">81.2</td> <td align="center"><b>83.4</b></td> <td align="center" style="border-left: 1px solid #ccc;">36.7</td> <td align="center">58.8</td> <td align="center">63.1</td> <td align="center"><b>67.3</b></td> <td align="center" style="border-left: 1px solid black;">1.73</td> <td align="center">2.80</td> <td align="center">2.90</td> </tr> <tr> <td align="left">Doubao-Seed-TTS-2.0</td> <td align="center">67.4</td> <td align="center">77.8</td> <td align="center">80.6</td> <td align="center"><b>82.8</b></td> <td align="center" style="border-left: 1px solid #ccc;">38.2</td> <td align="center">60.2</td> <td align="center"><b>65.0</b></td> <td align="center">64.9</td> <td align="center" style="border-left: 1px solid black;">1.67</td> <td align="center">2.81</td> <td align="center">2.90</td> </tr> <tr> <td align="left">GPT-4o-mini-TTS</td> <td align="center">62.6</td> <td align="center">76.0</td> <td align="center">77.0</td> <td align="center"><b>81.8</b></td> <td align="center" style="border-left: 1px solid #ccc;">45.9</td> <td align="center">64.0</td> <td align="center">65.7</td> <td align="center"><b>69.7</b></td> <td align="center" style="border-left: 1px solid black;">1.71</td> <td align="center">2.88</td> <td align="center">2.93</td> </tr> <tr style="border-bottom: 1px solid black;"> <td align="left">ElevenLabs-v2</td> <td align="center">60.4</td> <td align="center">74.6</td> <td align="center">77.4</td> <td align="center"><b>79.2</b></td> <td align="center" style="border-left: 1px solid #ccc;">43.8</td> <td align="center">63.3</td> <td align="center">69.7</td> <td align="center"><b>70.8</b></td> <td align="center" style="border-left: 1px solid black;">1.70</td> <td align="center">2.71</td> <td align="center">2.92</td> </tr> <tr> <td rowspan="4" align="center" style="font-weight: bold; vertical-align: middle;">英文</td> <td align="left">MiniMax-2.6-hd</td> <td align="center">55.0</td> <td align="center">64.0</td> <td align="center">64.2</td> <td align="center"><b>66.4</b></td> <td align="center" style="border-left: 1px solid #ccc;">51.9</td> <td align="center">60.3</td> <td align="center">62.3</td> <td align="center"><b>64.3</b></td> <td align="center" style="border-left: 1px solid black;">1.72</td> <td align="center">2.87</td> <td align="center">2.88</td> </tr> <tr> <td align="left">Doubao-Seed-TTS-2.0</td> <td align="center">53.8</td> <td align="center">65.8</td> <td align="center">65.8</td> <td align="center"><b>66.2</b></td> <td align="center" style="border-left: 1px solid #ccc;">47.0</td> <td align="center">62.0</td> <td align="center"><b>62.7</b></td> <td align="center">62.3</td> <td align="center" style="border-left: 1px solid black;">1.72</td> <td align="center">2.75</td> <td align="center">2.92</td> </tr> <tr> <td align="left">GPT-4o-mini-TTS</td> <td align="center">56.8</td> <td align="center">61.4</td> <td align="center">64.8</td> <td align="center"><b>65.2</b></td> <td align="center" style="border-left: 1px solid #ccc;">52.3</td> <td align="center">62.3</td> <td align="center">62.4</td> <td align="center"><b>63.4</b></td> <td align="center" style="border-left: 1px solid black;">1.90</td> <td align="center">2.90</td> <td align="center">2.88</td> </tr> <tr style="border-bottom: 1px solid black;"> <td align="left">ElevenLabs-v2</td> <td align="center">51.0</td> <td align="center">61.2</td> <td align="center">64.0</td> <td align="center"><b>65.2</b></td> <td align="center" style="border-left: 1px solid #ccc;">51.0</td> <td align="center">62.1</td> <td align="center">62.6</td> <td align="center"><b>64.0</b></td> <td align="center" style="border-left: 1px solid black;">1.93</td> <td align="center">2.87</td> <td align="center">2.88</td> </tr> <tr> <td rowspan="4" align="center" style="font-weight: bold; vertical-align: middle;">平均</td> <td align="left">MiniMax-2.6-hd</td> <td align="center">63.3</td> <td align="center">71.3</td> <td align="center">72.7</td> <td align="center"><b>74.9</b></td> <td align="center" style="border-left: 1px solid #ccc;">44.2</td> <td align="center">59.6</td> <td align="center">62.7</td> <td align="center"><b>65.8</b></td> <td align="center" style="border-left: 1px solid black;">1.73</td> <td align="center">2.84</td> <td align="center">2.89</td> </tr> <tr> <td align="left">Doubao-Seed-TTS-2.0</td> <td align="center">60.6</td> <td align="center">71.8</td> <td align="center">73.2</td> <td align="center"><b>74.5</b></td> <td align="center" style="border-left: 1px solid #ccc;">42.6</td> <td align="center">61.1</td> <td align="center"><b>63.9</b></td> <td align="center">63.6</td> <td align="center" style="border-left: 1px solid black;">1.70</td> <td align="center">2.78</td> <td align="center">2.91</td> </tr> <tr> <td align="left">GPT-4o-mini-TTS</td> <td align="center">59.7</td> <td align="center">68.7</td> <td align="center">70.9</td> <td align="center"><b>73.5</b></td> <td align="center" style="border-left: 1px solid #ccc;">49.1</td> <td align="center">63.2</td> <td align="center">64.1</td> <td align="center"><b>66.6</b></td> <td align="center" style="border-left: 1px solid black;">1.81</td> <td align="center">2.89</td> <td align="center">2.90</td> </tr> <tr> <td align="left">ElevenLabs-v2</td> <td align="center">55.7</td> <td align="center">67.9</td> <td align="center">70.7</td> <td align="center"><b>72.2</b></td> <td align="center" style="border-left: 1px solid #ccc;">47.4</td> <td align="center">62.7</td> <td align="center">66.1</td> <td align="center"><b>67.4</b></td> <td align="center" style="border-left: 1px solid black;">1.82</td> <td align="center">2.79</td> <td align="center">2.90</td> </tr> </tbody> </table>
</div>
致谢
本项目的部分代码和数据来源于:
感谢所有开源项目对本项目的贡献!
许可协议
- 本开源仓库中的代码采用 Apache 2.0 许可证授权。
引用
@misc{yan2025stepaudioeditxtechnicalreport,
title={Step-Audio-EditX Technical Report},
author={Chao Yan and Boyong Wu and Peng Yang and Pengfei Tan and Guoqiang Hu and Yuxin Zhang and Xiangyu and Zhang and Fei Tian and Xuerui Yang and Xiangyu Zhang and Daxin Jiang and Gang Yu},
year={2025},
eprint={2511.03601},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2511.03601},
}
⚠️ 使用免责声明
- 请勿将此模型用于任何未经授权的活动,包括但不限于:
- 未经许可的语音克隆
- 身份冒充
- 欺诈
- 深度伪造或任何其他非法目的
- 使用本模型时,请确保遵守当地法律法规,并遵循道德准则。
- 模型开发者不对任何滥用或不当使用本技术的行为负责。
我们倡导负责任的生成式 AI 研究,并敦促社区在 AI 开发和应用中坚持安全和道德标准。如果您对本模型的使用有任何疑虑,请随时与我们联系。
Star 历史
Gidigi/gidigi_931d169e_0007
作者 Gidigi
创建时间: 2026-02-22 08:10:53+00:00
更新时间: 2026-02-22 08:12:06+00:00
在 Hugging Face 上查看