说明文档

Step-Audio-EditX

🔥🔥🔥 新闻！！

2026年1月23日：🌟 现已支持 vLLM 的训练和推理。感谢 vLLM 团队！
2026年1月23日：💻 我们发布了 GRPO 训练代码。
2026年1月23日：🧩 新模型发布：现支持更多副语言标签。
2025年11月28日：🚀 新模型发布：现支持日语和韩语。
2025年11月23日：📊 Step-Audio-Edit-Benchmark 已发布！
2025年11月19日：⚙️ 我们发布了新版本模型，支持多音字发音控制，并提升了情感、说话风格和副语言编辑的性能。
2025年11月12日：📦 我们发布了 Step-Audio-EditX 的优化推理代码和模型权重（HuggingFace；ModelScope）以及 Step-Audio-Tokenizer（HuggingFace；ModelScope）
2025年11月7日：✨ 演示页面；🎮 HF Space 在线体验
2025年11月6日：👋 我们发布了 Step-Audio-EditX 的技术报告。

简介

我们开源了 Step-Audio-EditX，这是一个强大的30亿参数基于大语言模型的强化学习音频模型，专注于表达性和迭代式音频编辑。它在编辑情感、说话风格和副语言方面表现出色，同时还具有强大的零样本文本转语音（TTS）能力。

📑 开源计划

[x] 推理代码
[x] 在线演示（Gradio）
[x] Step-Audio-Edit-Benchmark
[x] 模型权重
- [x] Step-Audio-Tokenizer
- [x] Step-Audio-EditX
- [x] Step-Audio-EditX-Int4
[ ] 训练代码
- [x] GRPO 训练
- [ ] SFT 训练
- [ ] PPO 训练
[ ] ⏳ 功能支持计划
- [ ] 编辑
  - [x] 多音字发音控制
  - [x] 更多副语言标签（[咳嗽、哭泣、重音等]）
  - [ ] 口语词移除
- [ ] 其他语言
  - [x] 日语、韩语
  - [ ] 阿拉伯语、法语、俄语、西班牙语等

在线演示

StepFun 音频工作室

Step-Audio-EditX 已在 StepFun 音频工作室上线。
您需要从 StepFun 开放平台获取 API 密钥。

微信群

您可以扫描下方二维码加入我们的微信群进行交流和讨论。 <div align="center"> <img src="https://cdn-uploads.huggingface.co/production/uploads/66518fd07d8cb2629a514c18/DRdnp1SN-yxhlNOfy26mE.jpeg" width="200" alt="QR code"> </div>

功能特性

零样本 TTS
- 普通话、英语、四川话和粤语的优秀零样本 TTS 克隆。
- 要使用方言或其他语言，只需在文本前添加 [四川话] / [粤语] / [日语] / [韩语] 标签。
- 🔥 多音字发音控制，只需将多音字替换为拼音。
  - [我也想过过过儿过过的生活] -> [我也想guo4guo4guo1儿guo4guo4的生活]
情感和说话风格编辑
- 对情感和风格的迭代控制效果显著，支持数十种编辑选项。
  - 情感编辑：[ 愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等 ]
  - 说话风格编辑：[ 撒娇、老年、儿童、耳语、严肃、大方、夸张等 ]
  - 更多情感和说话风格的编辑功能即将推出。敬请期待！ 🚀
副语言编辑
- 精确控制10种副语言特征，实现更自然、更拟人、更具表现力的合成音频。
- 支持的标签：
  - [ 呼吸声、笑声、惊讶-哦、确认-嗯、呃、惊讶-啊、惊讶-哇、叹气、疑问-诶、不满-哼 ]
可用标签 <table> <tr> <td rowspan="8" style="vertical-align: middle; text-align:center;" align="center">情感</td> <td align="center">happy</td> <td align="center">表达开心</td> <td align="center">angry</td> <td align="center">表达愤怒</td> </tr> <tr> <td align="center">sad</td> <td align="center">表达悲伤</td> <td align="center">fear</td> <td align="center">表达恐惧</td> </tr> <tr> <td align="center">surprised</td> <td align="center">表达惊讶</td> <td align="center">confusion</td> <td align="center">表达困惑</td> </tr> <tr> <td align="center">empathy</td> <td align="center">表达同理心和理解</td> <td align="center">embarrass</td> <td align="center">表达尴尬</td> </tr> <tr> <td align="center">excited</td> <td align="center">表达兴奋和热情</td> <td align="center">depressed</td> <td align="center">表达沮丧或气馁的情绪</td> </tr> <tr> <td align="center">admiration</td> <td align="center">表达钦佩或尊敬</td> <td align="center">coldness</td> <td align="center">表达冷漠和冷淡</td> </tr> <tr> <td align="center">disgusted</td> <td align="center">表达厌恶或反感</td> <td align="center">humour</td> <td align="center">表达幽默或俏皮</td> </tr> <tr> </tr> <tr> <td rowspan="17" style="vertical-align: middle; text-align:center;" align="center">说话风格</td> <td align="center">serious</td> <td align="center">以严肃或庄重的方式说话</td> <td align="center">arrogant</td> <td align="center">以傲慢的方式说话</td> </tr> <tr> <td align="center">child</td> <td align="center">以孩子气的方式说话</td> <td align="center">older</td> <td align="center">以老年人的声音说话</td> </tr> <tr> <td align="center">girl</td> <td align="center">以轻盈、年轻女性的方式说话</td> <td align="center">pure</td> <td align="center">以纯洁、天真的方式说话</td> </tr> <tr> <td align="center">sister</td> <td align="center">以成熟、自信的女性方式说话</td> <td align="center">sweet</td> <td align="center">以甜美、可爱的方式说话</td> </tr> <tr> <td align="center">exaggerated</td> <td align="center">以夸张、戏剧性的方式说话</td> <td align="center">ethereal</td> <td align="center">以轻柔、空灵、梦幻的方式说话</td> </tr> <tr> <td align="center">whisper</td> <td align="center">以耳语、非常轻柔的方式说话</td> <td align="center">generous</td> <td align="center">以豪爽、外向、直率的方式说话</td> </tr> <tr> <td align="center">recite</td> <td align="center">以清晰、节奏感好的朗诵方式说话</td> <td align="center">act_coy</td> <td align="center">以甜美、俏皮、讨人喜欢的方式说话</td> </tr> <tr> <td align="center">warm</td> <td align="center">以温暖、友好的方式说话</td> <td align="center">shy</td> <td align="center">以害羞、胆怯的方式说话</td> </tr> <tr> <td align="center">comfort</td> <td align="center">以安慰、令人安心的方式说话</td> <td align="center">authority</td> <td align="center">以权威、命令的方式说话</td> </tr> <tr> <td align="center">chat</td> <td align="center">以随意、对话的方式说话</td> <td align="center">radio</td> <td align="center">以广播播音的方式说话</td> </tr> <tr> <td align="center">soulful</td> <td align="center">以深情、充满感情的方式说话</td> <td align="center">gentle</td> <td align="center">以温柔、轻柔的方式说话</td> </tr> <tr> <td align="center">story</td> <td align="center">以叙述、有声书风格的方式说话</td> <td align="center">vivid</td> <td align="center">以生动、富有表现力的方式说话</td> </tr> <tr> <td align="center">program</td> <td align="center">以节目主持人/主持人的方式说话</td> <td align="center">news</td> <td align="center">以新闻广播的方式说话</td> </tr> <tr> <td align="center">advertising</td> <td align="center">以精致、高端商业配音的方式说话</td> <td align="center">roar</td> <td align="center">以大声、深沉、咆哮的方式说话</td> </tr> <tr> <td align="center">murmur</td> <td align="center">以安静、低声的方式说话</td> <td align="center">shout</td> <td align="center">以大声、尖锐、喊叫的方式说话</td> </tr> <tr> <td align="center">deeply</td> <td align="center">以深沉、低音调的方式说话</td> <td align="center">loudly</td> <td align="center">以大声、高音调的方式说话</td> </tr> <tr> </tr> <tr> </tr> <tr> <td rowspan="11" style="vertical-align: middle; text-align:center;" align="center">副语言</td> <td align="center">[sigh]</td> <td align="center">叹气声</td> <td align="center">[inhale]</td> <td align="center">吸气声</td> </tr>

<tr> <td align="center">[laugh]</td> <td align="center">笑声</td> <td align="center">[chuckle]</td> <td align="center">轻笑</td> </tr>

<tr> <td align="center">[exhale]</td> <td align="center">呼气声</td> <td align="center">[clears throat]</td> <td align="center">清嗓子声</td> </tr>

<tr> <td align="center">[snort]</td> <td align="center">哼声</td> <td align="center">[giggle]</td> <td align="center">咯咯笑</td> </tr>

<tr> <td align="center">[cough]</td> <td align="center">咳嗽声</td> <td align="center">[breath]</td> <td align="center">呼吸声</td> </tr>

<tr> <td align="center">[uhm]</td> <td align="center">犹豫声："呃"</td> <td align="center">[Confirmation-en]</td> <td align="center">确认声："嗯"</td> </tr>

<tr> <td align="center">[Surprise-oh]</td> <td align="center">表达惊讶："哦"</td> <td align="center">[Surprise-ah]</td> <td align="center">表达惊讶："啊"</td> </tr>

<tr> <td align="center">[Surprise-wa]</td> <td align="center">表达惊讶："哇"</td> <td align="center">[Surprise-yo]</td> <td align="center">表达惊讶："哟"</td> </tr>

<tr> <td align="center">[Dissatisfaction-hnn]</td> <td align="center">不满声："哼"</td> <td align="center">[Question-ei]</td> <td align="center">疑问声："诶"</td> </tr>

<tr> <td align="center">[Question-ah]</td> <td align="center">疑问声："啊"</td> <td align="center">[Question-en]</td> <td align="center">疑问声："嗯"</td> </tr>

<tr> <td align="center">[Question-yi]</td> <td align="center">疑问声："咦"</td> <td align="center">[Question-oh]</td> <td align="center">疑问声："哦"</td> </tr> </table>

功能请求与愿望清单

💡 我们欢迎所有新功能的想法！如果您希望看到某个功能添加到项目中，请在我们的讨论区发起讨论。

我们将在这里收集社区反馈，并将热门建议纳入我们的未来开发计划。感谢您的贡献！

演示

<tr> <td align="center"> 情感-恐惧</td> <td align="center"> 我总觉得，有人在跟着我，我能听到奇怪的脚步声。</td> <td align="center">

fear_zh_female_prompt.webm </td> <td align="center">

fear_zh_female_output.webm </td> </tr>

<tr> <td align="center"> 风格-耳语</td> <td align="center"> 比如在工作间隙，做一些简单的伸展运动，放松一下身体，这样，会让你更有精力。</td> <td align="center">

whisper_prompt.webm </td> <td align="center">

whisper_output.webm </td> </tr>

<tr> <td align="center"> 风格-撒娇</td> <td align="center"> 我今天想喝奶茶，可是不知道喝什么口味，你帮我选一下嘛，你选的都好喝～</td> <td align="center">

act_coy_prompt.webm </td> <td align="center">

act_coy_output.webm </td> </tr>

<tr> <td align="center"> 副语言</td> <td align="center"> 你这次又忘记带钥匙了 [Dissatisfaction-hnn]，真是拿你没办法。</td> <td align="center">

paralingustic_prompt.webm </td> <td align="center">

paralingustic_output.webm </td> </tr>

<tr> <td align="center"> 降噪</td> <td align="center"> Such legislation was clarified and extended from time to time thereafter. No, the man was not drunk, he wondered how we got tied up with this stranger. Suddenly, my reflexes had gone. It's healthier to cook without sugar.</td> <td align="center">

denoising_prompt.webm </td> <td align="center">

denoising_output.webm </td> </tr>

<tr> <td align="center"> 语速-加快</td> <td align="center"> 上次你说鞋子有点磨脚，我给你买了一双软软的鞋垫。</td> <td align="center">

speed_faster_prompt.webm </td> <td align="center">

speed_faster_output.webm </td> </tr>

</table>

更多示例请参见演示页面。

模型下载

模型	🤗 Hugging Face	ModelScope
Step-Audio-EditX	stepfun-ai/Step-Audio-EditX	stepfun-ai/Step-Audio-EditX
Step-Audio-EditX	stepfun-ai/Step-Audio-EditX-AWQ-4bit	stepfun-ai/Step-Audio-EditX-AWQ-4bit
Step-Audio-Tokenizer	stepfun-ai/Step-Audio-Tokenizer	stepfun-ai/Step-Audio-Tokenizer

模型使用

📜 系统要求

下表展示了运行 Step-Audio-EditX 模型的系统要求（批大小 = 1）：

模型	参数量	设置<br/>（采样频率）	GPU 最佳显存
Step-Audio-EditX	30亿	41.6Hz	12 GB

需要支持 CUDA 的 NVIDIA GPU。
- 模型在单张 L40S GPU 上进行了测试。
- 12GB 是临界值，16GB 显存会更安全。
测试过的操作系统：Linux

🔧 依赖和安装

git clone https://github.com/stepfun-ai/Step-Audio-EditX.git

cd Step-Audio-EditX
uv sync --refresh
source .venv/bin/activate

git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer
git clone https://huggingface.co/stepfun-ai/Step-Audio-EditX
git clone https://huggingface.co/stepfun-ai/Step-Audio-EditX-AWQ-4bit/

下载模型后，您的下载目录应具有以下结构：

where_you_download_dir
├── Step-Audio-Tokenizer
├── Step-Audio-EditX

使用 Docker 运行

您可以使用提供的 Dockerfile 来搭建运行 Step-Audio-EditX 所需的环境。

# 构建 docker
docker build . -t step-audio-editx

# 运行 docker
docker run --rm --gpus all \
    -v /your/code/path:/app \
    -v /your/model/path:/model \
    -p 7860:7860 \
    step-audio-editx

本地推理演示

[!TIP] 为获得最佳性能，每次推理请将音频保持在30秒以内。

# 零样本克隆
# 生成的音频文件路径为 output/fear_zh_female_prompt_cloned.wav
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-text "我总觉得，有人在跟着我，我能听到奇怪的脚步声。" \
    --prompt-audio "examples/fear_zh_female_prompt.wav" \
    --generated-text "可惜没有如果，已经发生的事情终究是发生了。" \
    --edit-type "clone" \
    --output-dir ./output 

python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-text "His political stance was conservative, and he was particularly close to margaret thatcher." \
    --prompt-audio "examples/zero_shot_en_prompt.wav" \
    --generated-text "Underneath the courtyard is a large underground exhibition room which connects the two buildings.	" \
    --edit-type "clone" \
    --output-dir ./output 

# 编辑
# 每次编辑迭代会生成一个或多个音频文件，例如：output/fear_zh_female_prompt_edited_iter1.wav, output/fear_zh_female_prompt_edited_iter2.wav, ...
# 情感；恐惧
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-text "我总觉得，有人在跟着我，我能听到奇怪的脚步声。" \
    --prompt-audio "examples/fear_zh_female_prompt.wav" \
    --edit-type "emotion" \
    --edit-info "fear" \
    --output-dir ./output 

# 情感；开心
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-text "You know, I just finished that big project and feel so relieved. Everything seems easier and more colorful, what a wonderful feeling!" \
    --prompt-audio "examples/en_happy_prompt.wav" \
    --edit-type "emotion" \
    --edit-info "happy" \
    --output-dir ./output 

# 风格；耳语
# 对于耳语风格，编辑迭代次数应设置大于1以获得更好的效果。
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-text "比如在工作间隙，做一些简单的伸展运动，放松一下身体，这样，会让你更有精力." \
    --prompt-audio "examples/whisper_prompt.wav" \
    --edit-type "style" \
    --edit-info "whisper" \
    --output-dir ./output 

# 副语言 
# 支持的标签：Breathing, Laughter, Surprise-oh, Confirmation-en, Uhm, Surprise-ah, Surprise-wa, Sigh, Question-ei, Dissatisfaction-hnn
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-text "我觉得这个计划大概是可行的，不过还需要再仔细考虑一下。" \
    --prompt-audio "examples/paralingustic_prompt.wav" \
    --generated-text "我觉得这个计划大概是可行的，[Uhm]不过还需要再仔细考虑一下。" \
    --edit-type "paralinguistic" \
    --output-dir ./output 

# 降噪
# 不需要提示文本。
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-audio "examples/denoise_prompt.wav"\
    --edit-type "denoise" \
    --output-dir ./output 

# 语音活动检测 (VAD)
# 不需要提示文本。
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-audio "examples/vad_prompt.wav" \
    --edit-type "vad" \
    --output-dir ./output 

# 语速
# 支持的 edit-info：faster, slower, more faster, more slower
python3 tts_infer.py \
    --model-path where_you_download_dir \
    --tokenizer-path where_you_download_dir \
    --prompt-text "上次你说鞋子有点磨脚，我给你买了一双软软的鞋垫。" \
    --prompt-audio "examples/speed_prompt.wav" \
    --edit-type "speed" \
    --edit-info "more faster" \
    --output-dir ./output

启动 Web 演示

启动本地服务器进行在线推理。假设您有一张至少12GB显存的GPU，并且已经下载了所有模型。

# 标准启动
python app.py --model-path where_you_download_dir --tokenizer-path where_you_download_dir --model-source local

# 使用预量化的 AWQ 4-bit 模型，内存高效模式（适用于显存有限的情况，约6-8GB占用）
python app.py \
    --model-path path/to/quantized/model \
    --tokenizer-path where_you_download_dir \
    --model-source local \
    --gpu-memory-utilization 0.1 \
    --enforce-eager \
    --max-num-seqs 1 \
    --cosyvoice-dtype bfloat16 \
    --no-cosyvoice-cuda-graph

可用参数

参数	默认值	描述
`--model-path`	（必填）	模型目录路径
`--model-source`	`auto`	模型来源：`auto`、`local`、`modelscope`、`huggingface`
`--gpu-memory-utilization`	`0.5`	vLLM KV 缓存的 GPU 显存比例（0.0-1.0）
`--max-model-len`	`3072`	最大序列长度，影响 KV 缓存大小
`--enforce-eager`	`True`	禁用 vLLM CUDA Graphs（节省约0.5GB显存）
`--max-num-seqs`	`1`	最大并发序列数（vLLM 默认：256，越低越省显存）
`--dtype`	`bfloat16`	模型数据类型：`float16`、`bfloat16`
`--quantization`	`None`	量化方法：`awq`、`gptq`、`fp8`
`--cosyvoice-dtype`	`bfloat16`	CosyVoice 声码器数据类型：`float32`、`bfloat16`、`float16`
`--no-cosyvoice-cuda-graph`	`False`	禁用 CosyVoice CUDA Graphs（节省显存）
`--enable-auto-transcribe`	`False`	启用自动音频转录

显存使用指南

配置	预估 GPU 显存	使用场景
标准（默认）	~12-15 GB	最佳质量和速度
内存高效	~6-8 GB	显存有限，有一定质量折损
AWQ 4-bit 量化	~8-10 GB	质量和显存的良好平衡

训练

请参考 script/ReadMe.md

🔄 模型量化（可选）

对于显存有限的用户，可以创建模型的量化版本来降低显存需求：

# 创建 AWQ 4-bit 量化模型
python quantization/awq_quantize.py --model_path path/to/Step-Audio-EditX

# 高级量化选项
python quantization/awq_quantize.py

有关详细的量化选项和参数，请参见 quantization/README.md。

技术细节

<img src="assets/architechture.png" width=900> Step-Audio-EditX 包含三个主要组件：

双码本音频分词器，将参考或输入音频转换为离散 token。
音频大语言模型，生成双码本 token 序列。
音频解码器，使用流匹配方法将音频大语言模型预测的双码本 token 序列转换回音频波形。

Audio-Edit 能够对所有声音进行情感和说话风格的迭代控制，在 SFT 和 PPO 训练期间利用大间隔数据。

评估

Step-Audio-EditX 与闭源模型的比较。

Step-Audio-EditX 在零样本克隆和情感控制方面均优于 Minimax 和 Doubao。
Step-Audio-EditX 的情感编辑仅需一次迭代就能显著改善所有三个模型的情感控制音频输出。随着进一步迭代，它们的整体性能持续提升。

在闭源模型上的泛化能力。

对于情感和说话风格编辑，领先的闭源系统的内置语音具有相当强的上下文能力，能够部分传达文本中的情感。经过 Step-Audio-EditX 的一轮编辑后，所有语音模型的情感和风格准确性都显示出显著提升。在接下来的两次迭代中观察到进一步增强，有力地证明了我们模型的强大泛化能力。
对于副语言编辑，经过 Step-Audio-EditX 编辑后，副语言复现的性能与闭源模型内置语音直接合成原生副语言内容所达到的性能相当。（sub 表示用原生词替换副语言标签）

<table border="1" cellspacing="0" cellpadding="5" style="border-collapse: collapse; font-family: sans-serif; width: auto;"> <caption>表：情感、说话风格和副语言编辑在闭源模型上的泛化能力。</caption> <thead> <tr> <th rowspan="2" align="center" style="vertical-align: bottom;">语言</th> <th rowspan="2" align="center" style="vertical-align: bottom;">模型</th> <th colspan="4" style="border-bottom: 1px solid black;">情感 ↑</th> <th colspan="4" style="border-bottom: 1px solid black;">说话风格 ↑</th> <th colspan="3" style="border-bottom: 1px solid black; border-left: 1px solid black;">副语言 ↑</th> </tr> <tr> <th>Iter0</th> <th>Iter1</th> <th>Iter2</th> <th>Iter3</th> <th style="border-left: 1px solid #ccc;">Iter0</th> <th>Iter1</th> <th>Iter2</th> <th>Iter3</th> <th style="border-left: 1px solid black;">Iter0</th> <th>sub</th> <th>Iter1</th> </tr> </thead> <tbody> <tr> <td rowspan="4" align="center" style="font-weight: bold; vertical-align: middle;">中文</td> <td align="left">MiniMax-2.6-hd</td> <td align="center">71.6</td> <td align="center">78.6</td> <td align="center">81.2</td> <td align="center">83.4</td> <td align="center" style="border-left: 1px solid #ccc;">36.7</td> <td align="center">58.8</td> <td align="center">63.1</td> <td align="center">67.3</td> <td align="center" style="border-left: 1px solid black;">1.73</td> <td align="center">2.80</td> <td align="center">2.90</td> </tr> <tr> <td align="left">Doubao-Seed-TTS-2.0</td> <td align="center">67.4</td> <td align="center">77.8</td> <td align="center">80.6</td> <td align="center">82.8</td> <td align="center" style="border-left: 1px solid #ccc;">38.2</td> <td align="center">60.2</td> <td align="center">65.0</td> <td align="center">64.9</td> <td align="center" style="border-left: 1px solid black;">1.67</td> <td align="center">2.81</td> <td align="center">2.90</td> </tr> <tr> <td align="left">GPT-4o-mini-TTS</td> <td align="center">62.6</td> <td align="center">76.0</td> <td align="center">77.0</td> <td align="center">81.8</td> <td align="center" style="border-left: 1px solid #ccc;">45.9</td> <td align="center">64.0</td> <td align="center">65.7</td> <td align="center">69.7</td> <td align="center" style="border-left: 1px solid black;">1.71</td> <td align="center">2.88</td> <td align="center">2.93</td> </tr> <tr style="border-bottom: 1px solid black;"> <td align="left">ElevenLabs-v2</td> <td align="center">60.4</td> <td align="center">74.6</td> <td align="center">77.4</td> <td align="center">79.2</td> <td align="center" style="border-left: 1px solid #ccc;">43.8</td> <td align="center">63.3</td> <td align="center">69.7</td> <td align="center">70.8</td> <td align="center" style="border-left: 1px solid black;">1.70</td> <td align="center">2.71</td> <td align="center">2.92</td> </tr> <tr> <td rowspan="4" align="center" style="font-weight: bold; vertical-align: middle;">英文</td> <td align="left">MiniMax-2.6-hd</td> <td align="center">55.0</td> <td align="center">64.0</td> <td align="center">64.2</td> <td align="center">66.4</td> <td align="center" style="border-left: 1px solid #ccc;">51.9</td> <td align="center">60.3</td> <td align="center">62.3</td> <td align="center">64.3</td> <td align="center" style="border-left: 1px solid black;">1.72</td> <td align="center">2.87</td> <td align="center">2.88</td> </tr> <tr> <td align="left">Doubao-Seed-TTS-2.0</td> <td align="center">53.8</td> <td align="center">65.8</td> <td align="center">65.8</td> <td align="center">66.2</td> <td align="center" style="border-left: 1px solid #ccc;">47.0</td> <td align="center">62.0</td> <td align="center">62.7</td> <td align="center">62.3</td> <td align="center" style="border-left: 1px solid black;">1.72</td> <td align="center">2.75</td> <td align="center">2.92</td> </tr> <tr> <td align="left">GPT-4o-mini-TTS</td> <td align="center">56.8</td> <td align="center">61.4</td> <td align="center">64.8</td> <td align="center">65.2</td> <td align="center" style="border-left: 1px solid #ccc;">52.3</td> <td align="center">62.3</td> <td align="center">62.4</td> <td align="center">63.4</td> <td align="center" style="border-left: 1px solid black;">1.90</td> <td align="center">2.90</td> <td align="center">2.88</td> </tr> <tr style="border-bottom: 1px solid black;"> <td align="left">ElevenLabs-v2</td> <td align="center">51.0</td> <td align="center">61.2</td> <td align="center">64.0</td> <td align="center">65.2</td> <td align="center" style="border-left: 1px solid #ccc;">51.0</td> <td align="center">62.1</td> <td align="center">62.6</td> <td align="center">64.0</td> <td align="center" style="border-left: 1px solid black;">1.93</td> <td align="center">2.87</td> <td align="center">2.88</td> </tr> <tr> <td rowspan="4" align="center" style="font-weight: bold; vertical-align: middle;">平均</td> <td align="left">MiniMax-2.6-hd</td> <td align="center">63.3</td> <td align="center">71.3</td> <td align="center">72.7</td> <td align="center">74.9</td> <td align="center" style="border-left: 1px solid #ccc;">44.2</td> <td align="center">59.6</td> <td align="center">62.7</td> <td align="center">65.8</td> <td align="center" style="border-left: 1px solid black;">1.73</td> <td align="center">2.84</td> <td align="center">2.89</td> </tr> <tr> <td align="left">Doubao-Seed-TTS-2.0</td> <td align="center">60.6</td> <td align="center">71.8</td> <td align="center">73.2</td> <td align="center">74.5</td> <td align="center" style="border-left: 1px solid #ccc;">42.6</td> <td align="center">61.1</td> <td align="center">63.9</td> <td align="center">63.6</td> <td align="center" style="border-left: 1px solid black;">1.70</td> <td align="center">2.78</td> <td align="center">2.91</td> </tr> <tr> <td align="left">GPT-4o-mini-TTS</td> <td align="center">59.7</td> <td align="center">68.7</td> <td align="center">70.9</td> <td align="center">73.5</td> <td align="center" style="border-left: 1px solid #ccc;">49.1</td> <td align="center">63.2</td> <td align="center">64.1</td> <td align="center">66.6</td> <td align="center" style="border-left: 1px solid black;">1.81</td> <td align="center">2.89</td> <td align="center">2.90</td> </tr> <tr> <td align="left">ElevenLabs-v2</td> <td align="center">55.7</td> <td align="center">67.9</td> <td align="center">70.7</td> <td align="center">72.2</td> <td align="center" style="border-left: 1px solid #ccc;">47.4</td> <td align="center">62.7</td> <td align="center">66.1</td> <td align="center">67.4</td> <td align="center" style="border-left: 1px solid black;">1.82</td> <td align="center">2.79</td> <td align="center">2.90</td> </tr> </tbody> </table>

</div>

致谢

本项目的部分代码和数据来自：

感谢所有开源项目对本项目的贡献！

许可协议

本开源仓库中的代码采用 Apache 2.0 许可证授权。

引用

@misc{yan2025stepaudioeditxtechnicalreport,
      title={Step-Audio-EditX Technical Report}, 
      author={Chao Yan and Boyong Wu and Peng Yang and Pengfei Tan and Guoqiang Hu and Yuxin Zhang and Xiangyu and Zhang and Fei Tian and Xuerui Yang and Xiangyu Zhang and Daxin Jiang and Gang Yu},
      year={2025},
      eprint={2511.03601},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2511.03601}, 
}

⚠️ 使用免责声明

请勿将此模型用于任何未经授权的活动，包括但不限于：
- 未经许可的语音克隆
- 身份冒充
- 欺诈
- 深度伪造或任何其他非法目的
使用此模型时，请确保遵守当地法律法规，并遵循道德准则。
模型开发者不对任何滥用或误用此技术的行为负责。

我们倡导负责任的生成式 AI 研究，并敦促社区在 AI 开发和应用中坚持安全和道德标准。如果您对此模型的使用有任何疑虑，请随时与我们联系。

Star 历史

stepfun-ai/Step-Audio-EditX

作者 stepfun-ai

↓ 16.9K ♥ 114

创建时间: 2025-10-29 11:53:19+00:00

更新时间: 2026-02-14 09:34:10+00:00

在 Hugging Face 上查看

文件 (19)

.gitattributes

CosyVoice-300M-25Hz/FLOW_VERSION

CosyVoice-300M-25Hz/campplus.onnx ONNX

CosyVoice-300M-25Hz/cosyvoice.yaml

CosyVoice-300M-25Hz/flow.pt

CosyVoice-300M-25Hz/hift.pt

CosyVoice-300M-25Hz/speech_tokenizer_v1.onnx ONNX

README.md

assets/architechture.png

assets/emotion-eval.png

assets/logo.png

assets/test.wav

config.json

configuration_step1.py

model-00001.safetensors

model.safetensors.index.json

modeling_step1.py

tokenizer.model

tokenizer_config.json