返回模型

说明文档

Stable Diffusion 1.5 WebGPU - Zhare-AI

基于 WebGPU 加速的隐私保护浏览器端文本生成图像

</div>

这是一个针对浏览器优化的 Stable Diffusion v1.5 实现，专门为使用 WebGPU 加速的客户端部署进行了转换和优化。由 Zhare-AI 开发，该模型能够在 Web 浏览器中直接生成高质量图像，无需服务器基础设施，确保完全的用户隐私和数据主权。

<div align="center"> <img src="zhare-logo.png" alt="Zhare-AI - 普及 AI" width="150" height="auto"> <p><em>通过分布式计算和隐私保护技术普及 AI</em></p> </div>

🌟 主要特性

🌐 完全客户端运行：在浏览器中完成图像生成，数据不离开您的设备
⚡ WebGPU 加速：硬件加速推理，自动 WebAssembly 回退
🔒 隐私优先：所有处理均在本地进行，保护用户提示词和生成内容
📱 跨平台：兼容桌面和移动浏览器
🛠️ 生产就绪：针对实际 Web 应用优化

🚀 快速开始

安装与设置

# 克隆或下载模型
git lfs install
git clone https://huggingface.co/Zhare-AI/sd-1-5-webgpu

📊 性能规格

模型架构

组件	描述	大小（约）
文本编码器	CLIP ViT-L/14 用于文本理解	~500MB
UNet	图像生成核心扩散模型	~3.4GB
VAE 解码器	将潜空间转换为最终图像	~160MB
VAE 编码器	将图像编码到潜空间	~160MB
安全检查器	内容过滤（可选）	~600MB

模型总大小：~4.8GB（不含安全检查器：~4.2GB）

浏览器性能基准

512×512 图像、20 步推理的生成时间：

硬件类别	示例设备	典型性能
高端桌面	RTX 4090、RTX 4080	3-8 秒
游戏桌面	RTX 3080、RTX 3070	8-15 秒
Intel Arc GPU	Arc A750、Arc A770	8-15 秒
AMD 高端	RX 7900 XT/XTX	6-12 秒
Apple Silicon	M2 Max、M1 Ultra	10-20 秒
集成显卡	Intel Iris Xe	25-50 秒
WebAssembly 回退	仅 CPU 设备	2-10 分钟

系统要求

最低显存：4GB（推荐：6GB+）
系统内存：最低 8GB，推荐 16GB
存储空间：5GB 可用空间用于模型文件
浏览器：Chrome 113+、Edge 113+（WebGPU），或任何现代浏览器（WebAssembly 回退）

🌐 浏览器兼容性

浏览器	WebGPU 支持	性能水平	备注
Chrome 113+	✅ 完全支持	优秀	首要推荐
Microsoft Edge 113+	✅ 完全支持	优秀	首要推荐
Firefox 141+	✅ 稳定支持	很好	近期实现的 WebGPU
Safari 17.4+	🔶 实验性	良好	需开启功能标志
移动版 Chrome 121+	🔶 有限	一般	仅限 Android，内存有限

所有浏览器均支持 WebAssembly 回退以确保通用兼容性

📝 模型详情

训练信息

该模型基于 Stable Diffusion v1.5，具有以下训练特征：

基础数据集：LAION-5B 过滤子集（~5.9 亿图文对）
训练分辨率：512×512 像素
架构：使用 CLIP ViT-L/14 文本编码器的潜在扩散模型
精度：原 FP32 训练，优化为 FP16 用于浏览器部署

Web 部署优化

ONNX 转换：针对 Web 推理优化的计算图
WebGPU 内核：用于 GPU 加速的自定义计算着色器
内存效率：注意力切片和动态内存管理
跨平台：WebAssembly 回退确保通用浏览器支持

🛡️ 伦理使用与安全

内置安全功能

内容过滤器：可选的 NSFW 检测和过滤
提示词净化：对潜在有害提示词的基础过滤
本地处理：无数据传输确保隐私保护

负责任使用指南

✅ 鼓励的用途：

创意艺术和设计项目
AI 能力的教育演示
应用的快速原型开发
个人创意探索
研究与开发

❌ 禁止的用途：

创造有害、冒犯性或非法内容
生成误导性信息或深度伪造
侵犯版权或知识产权
任何违反 CreativeML OpenRAIL-M 许可条款的使用

隐私与数据保护

零数据收集：所有处理均在浏览器本地进行
无服务器通信：初始下载后模型完全离线运行
用户控制：对生成内容和提示词的完全控制
符合 GDPR：无个人数据处理或存储

⚠️ 限制与注意事项

技术限制

分辨率：针对 512×512 优化（其他分辨率可能降低质量）
批大小：浏览器环境中仅支持单图像生成
内存约束：受浏览器和设备显存/内存限制
生成速度：比专用服务器硬件慢

内容限制

语言偏差：英文提示词效果最佳
文化代表性：训练数据可能反映西方/英语地区偏差
艺术风格：倾向于照片写实和数字艺术风格
一致性：相同提示词的多次生成可能有显著差异

浏览器特定注意事项

WebGPU 可用性：仅限于支持的浏览器和设备
内存管理：浏览器安全限制可能影响大型模型加载
性能差异：不同设备和浏览器间存在显著差异

📜 许可证：CreativeML OpenRAIL-M

该模型采用 CreativeML OpenRAIL-M 许可证发布，允许：

✅ 许可：

商业和非商业用途
分发和修改
创作衍生作品
集成到应用和服务中

🚫 限制：

不得用于生成有害内容
不得用于非法活动
任何分发必须包含许可条款
衍生作品必须保持相同的许可限制

完整许可文本：详见 CreativeML OpenRAIL-M License

许可合规

使用此模型时：

包含许可证：向最终用户提供许可条款
遵守限制：确保用例符合内容限制
衍生作品：对修改版本适用相同许可证
归属说明：注明原始 Stable Diffusion 创作者和 Zhare-AI 适配

🏢 关于 Zhare-AI

Zhare-AI 致力于通过使强大的模型直接在 Web 浏览器中可用，来普及 AI 技术。我们的使命是打造保护隐私的 AI 应用，让用户掌控自己的数据和创作过程。

网站：zhare.ai
专注领域：分布式 AI 计算和基于浏览器的 AI 应用
理念：隐私优先、用户控制的 AI 体验
愿景：让 AI 触手可及、私密且分布式

我们的使命

我们相信 AI 应该：

可及——人人可用，无论基础设施如何
私密——用户完全掌控数据
分布式——跨设备而非集中式服务器
透明——开源实现

📚 引用与参考

引用本工作

@misc{zhare-ai-sd15-webgpu-2025,
  title={Stable Diffusion 1.5 WebGPU: Browser-Optimized Text-to-Image Generation},
  author={Zhare-AI},
  year={2025},
  howpublished={\url{https://huggingface.co/Zhare-AI/sd-1-5-webgpu}},
  note={WebGPU-optimized implementation for privacy-preserving browser-based image generation}
}

原始 Stable Diffusion 引用

@InProceedings{Rombach_2022_CVPR,
  author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Björn},
  title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  month     = {June},
  year      = {2022},
  pages     = {10684-10695}
}

🤝 社区与支持

获取帮助

问题反馈：通过仓库 issues 报告技术问题
讨论交流：加入社区讨论获取技巧和示例
文档：仓库中提供全面指南

贡献

我们欢迎改进浏览器兼容性、性能和用户体验的贡献：

针对不同硬件的性能优化
浏览器兼容性改进
文档增强
示例应用和教程

🚀 准备好直接在浏览器中创作精彩图像了吗？

该模型将 Stable Diffusion 的强大功能带入 Web 应用，同时完全保护您的数据隐私与安全。

由 Zhare-AI 用 ❤️ 为开源社区开发

🌐 访问 Zhare.ai | 📧 联系我们 | 💬 加入讨论

</div>

Zhare-AI/sd-1-5-webgpu

作者 Zhare-AI

text-to-image onnx

↓ 0 ♥ 6

创建时间: 2025-09-27 12:52:11+00:00

更新时间: 2025-10-23 20:58:36+00:00

在 Hugging Face 上查看

文件 (9)

.gitattributes

README.md

config.json

onnx/safety_checker.onnx ONNX

onnx/text_encoder.onnx ONNX

onnx/unet.onnx ONNX

onnx/vae_decoder.onnx ONNX

onnx/vae_encoder.onnx ONNX

zhare-logo.png