说明文档
🚀 AMD AI PC NPU 上的 Stable Diffusion 1.5
"Stable Diffusion 是一个潜在文本到图像扩散模型,能够根据任意文本输入生成逼真的图像。有关 Stable Diffusion 工作原理的更多信息,请查看 🤗 的 Stable Diffusion 博客。" 有关此模型的更多详细信息可以在原始的 Hugging Face 模型卡上找到:stable-diffusion-v1-5/stable-diffusion-v1-5。
此模型仓库包含在 AMD NPU 上运行 Stable Diffusion 1.5 图像生成流水线所需的优化 ONNX 模型。
模型详情
文件夹结构按照扩散流水线的主要组件(调度器、文本编码器、分词器、UNet 和 VAE 解码器)进行组织。
├─ scheduler/
├─ text_encoder/
├─ tokenizer/
├─ unet/
└─ vae_decoder/
scheduler 文件夹包含扩散采样过程中使用的调度器配置(时间步长、betas、alphas 等)。
text_encoder 文件夹包含用于将输入提示转换为扩散模型条件嵌入的文本编码器模型。
tokenizer 包含在将文本提示输入到文本编码器之前预处理文本提示所需的分词器配置和词汇表文件。
unet 文件夹包含扩散过程中使用的 UNet 模型。UNet 经过专门导出和结构化,以利用 AMD NPU 加速器进行去噪步骤。
vae_decoder 文件夹包含用于将潜在表示映射回图像空间的 VAE 解码器模型。VAE 解码器也经过结构化,以利用 NPU 加速器进行高效的图像重建。
注意:UNet 和 VAE 解码器模型经过优化和结构化,可在 AMD NPU 上运行。其他组件(文本编码器、分词器和调度器)在 GPU 和 NPU 流水线之间共享,但在此处提供以确保完整性。
| 模型详情 | 描述 |
|---|---|
| 模型开发人员或组织 | Giovanni Guasti (AMD), Benjamin Consolvo (AMD) |
| 原始模型作者 | Robin Rombach, Patrick Esser |
| 模型日期 | 2026年1月 |
| 模型版本 | 1.7.0 |
| 模型类型 | 基于扩散的文本到图像生成模型 |
| 有关训练算法、参数、公平性约束或其他应用方法及特性的信息 | 这是一个可用于根据文本提示生成和修改图像的模型。它是一个 潜在扩散模型,使用固定的预训练文本编码器(CLIP ViT-L/14),如 Imagen 论文 中所建议的那样。 |
| 许可证 | CreativeML OpenRAIL-M |
| 关于模型的问题或评论发送至 | 社区讨论区 和 AMD 开发者社区 Discord |
⚡ 预期用途
快速开始
要开始使用此模型,请访问 github.com/amd/sd-sandbox。
⚓ 道德考量
AMD 致力于以公平、道德和诚实的方式开展业务,并遵守所有适用的法律、规则和法规。您可以在 AMD 道德与合规 页面了解更多信息。
⚠️ 注意事项和建议
请访问原始模型卡以获取更多详细信息:stable-diffusion-v1-5/stable-diffusion-v1-5。
📌 引用详情
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
amd/stable-diffusion-1.5-amdnpu
作者 amd
创建时间: 2025-11-25 19:06:12+00:00
更新时间: 2026-02-11 00:07:04+00:00
在 Hugging Face 上查看