ONNX 模型库
返回模型

说明文档

<div align="center"> <img src="zhare-logo.png" alt="Zhare-AI Logo" width="200" height="auto" style="margin-bottom: 20px;"> </div>

Stable Diffusion 1.5 WebGPU - Zhare-AI

<div align="center">

License WebGPU Privacy Production

基于 WebGPU 加速的隐私保护浏览器端文本生成图像

</div>

这是一个针对浏览器优化的 Stable Diffusion v1.5 实现,专门为使用 WebGPU 加速的客户端部署进行了转换和优化。由 Zhare-AI 开发,该模型能够在 Web 浏览器中直接生成高质量图像,无需服务器基础设施,确保完全的用户隐私和数据主权。

<div align="center"> <img src="zhare-logo.png" alt="Zhare-AI - 普及 AI" width="150" height="auto"> <p><em>通过分布式计算和隐私保护技术普及 AI</em></p> </div>

🌟 主要特性

  • 🌐 完全客户端运行:在浏览器中完成图像生成,数据不离开您的设备
  • WebGPU 加速:硬件加速推理,自动 WebAssembly 回退
  • 🔒 隐私优先:所有处理均在本地进行,保护用户提示词和生成内容
  • 📱 跨平台:兼容桌面和移动浏览器
  • 🛠️ 生产就绪:针对实际 Web 应用优化

🚀 快速开始

安装与设置

# 克隆或下载模型
git lfs install
git clone https://huggingface.co/Zhare-AI/sd-1-5-webgpu

📊 性能规格

模型架构

组件 描述 大小(约)
文本编码器 CLIP ViT-L/14 用于文本理解 ~500MB
UNet 图像生成核心扩散模型 ~3.4GB
VAE 解码器 将潜空间转换为最终图像 ~160MB
VAE 编码器 将图像编码到潜空间 ~160MB
安全检查器 内容过滤(可选) ~600MB

模型总大小:~4.8GB(不含安全检查器:~4.2GB)

浏览器性能基准

512×512 图像、20 步推理的生成时间:

硬件类别 示例设备 典型性能
高端桌面 RTX 4090、RTX 4080 3-8 秒
游戏桌面 RTX 3080、RTX 3070 8-15 秒
Intel Arc GPU Arc A750、Arc A770 8-15 秒
AMD 高端 RX 7900 XT/XTX 6-12 秒
Apple Silicon M2 Max、M1 Ultra 10-20 秒
集成显卡 Intel Iris Xe 25-50 秒
WebAssembly 回退 仅 CPU 设备 2-10 分钟

系统要求

  • 最低显存:4GB(推荐:6GB+)
  • 系统内存:最低 8GB,推荐 16GB
  • 存储空间:5GB 可用空间用于模型文件
  • 浏览器:Chrome 113+、Edge 113+(WebGPU),或任何现代浏览器(WebAssembly 回退)

🌐 浏览器兼容性

浏览器 WebGPU 支持 性能水平 备注
Chrome 113+ ✅ 完全支持 优秀 首要推荐
Microsoft Edge 113+ ✅ 完全支持 优秀 首要推荐
Firefox 141+ ✅ 稳定支持 很好 近期实现的 WebGPU
Safari 17.4+ 🔶 实验性 良好 需开启功能标志
移动版 Chrome 121+ 🔶 有限 一般 仅限 Android,内存有限

所有浏览器均支持 WebAssembly 回退以确保通用兼容性

📝 模型详情

训练信息

该模型基于 Stable Diffusion v1.5,具有以下训练特征:

  • 基础数据集:LAION-5B 过滤子集(~5.9 亿图文对)
  • 训练分辨率:512×512 像素
  • 架构:使用 CLIP ViT-L/14 文本编码器的潜在扩散模型
  • 精度:原 FP32 训练,优化为 FP16 用于浏览器部署

Web 部署优化

  • ONNX 转换:针对 Web 推理优化的计算图
  • WebGPU 内核:用于 GPU 加速的自定义计算着色器
  • 内存效率:注意力切片和动态内存管理
  • 跨平台:WebAssembly 回退确保通用浏览器支持

🛡️ 伦理使用与安全

内置安全功能

  • 内容过滤器:可选的 NSFW 检测和过滤
  • 提示词净化:对潜在有害提示词的基础过滤
  • 本地处理:无数据传输确保隐私保护

负责任使用指南

鼓励的用途:

  • 创意艺术和设计项目
  • AI 能力的教育演示
  • 应用的快速原型开发
  • 个人创意探索
  • 研究与开发

禁止的用途:

  • 创造有害、冒犯性或非法内容
  • 生成误导性信息或深度伪造
  • 侵犯版权或知识产权
  • 任何违反 CreativeML OpenRAIL-M 许可条款的使用

隐私与数据保护

  • 零数据收集:所有处理均在浏览器本地进行
  • 无服务器通信:初始下载后模型完全离线运行
  • 用户控制:对生成内容和提示词的完全控制
  • 符合 GDPR:无个人数据处理或存储

⚠️ 限制与注意事项

技术限制

  • 分辨率:针对 512×512 优化(其他分辨率可能降低质量)
  • 批大小:浏览器环境中仅支持单图像生成
  • 内存约束:受浏览器和设备显存/内存限制
  • 生成速度:比专用服务器硬件慢

内容限制

  • 语言偏差:英文提示词效果最佳
  • 文化代表性:训练数据可能反映西方/英语地区偏差
  • 艺术风格:倾向于照片写实和数字艺术风格
  • 一致性:相同提示词的多次生成可能有显著差异

浏览器特定注意事项

  • WebGPU 可用性:仅限于支持的浏览器和设备
  • 内存管理:浏览器安全限制可能影响大型模型加载
  • 性能差异:不同设备和浏览器间存在显著差异

📜 许可证:CreativeML OpenRAIL-M

该模型采用 CreativeML OpenRAIL-M 许可证发布,允许:

许可:

  • 商业和非商业用途
  • 分发和修改
  • 创作衍生作品
  • 集成到应用和服务中

🚫 限制:

  • 不得用于生成有害内容
  • 不得用于非法活动
  • 任何分发必须包含许可条款
  • 衍生作品必须保持相同的许可限制

完整许可文本:详见 CreativeML OpenRAIL-M License

许可合规

使用此模型时:

  1. 包含许可证:向最终用户提供许可条款
  2. 遵守限制:确保用例符合内容限制
  3. 衍生作品:对修改版本适用相同许可证
  4. 归属说明:注明原始 Stable Diffusion 创作者和 Zhare-AI 适配

🏢 关于 Zhare-AI

<div align="center"> <img src="zhare-logo.png" alt="Zhare-AI" width="120" height="auto" style="margin: 20px 0;"> </div>

Zhare-AI 致力于通过使强大的模型直接在 Web 浏览器中可用,来普及 AI 技术。我们的使命是打造保护隐私的 AI 应用,让用户掌控自己的数据和创作过程。

  • 网站zhare.ai
  • 专注领域:分布式 AI 计算和基于浏览器的 AI 应用
  • 理念:隐私优先、用户控制的 AI 体验
  • 愿景:让 AI 触手可及、私密且分布式

我们的使命

我们相信 AI 应该:

  • 可及——人人可用,无论基础设施如何
  • 私密——用户完全掌控数据
  • 分布式——跨设备而非集中式服务器
  • 透明——开源实现

📚 引用与参考

引用本工作

@misc{zhare-ai-sd15-webgpu-2025,
  title={Stable Diffusion 1.5 WebGPU: Browser-Optimized Text-to-Image Generation},
  author={Zhare-AI},
  year={2025},
  howpublished={\url{https://huggingface.co/Zhare-AI/sd-1-5-webgpu}},
  note={WebGPU-optimized implementation for privacy-preserving browser-based image generation}
}

原始 Stable Diffusion 引用

@InProceedings{Rombach_2022_CVPR,
  author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Björn},
  title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  month     = {June},
  year      = {2022},
  pages     = {10684-10695}
}

🤝 社区与支持

获取帮助

  • 问题反馈:通过仓库 issues 报告技术问题
  • 讨论交流:加入社区讨论获取技巧和示例
  • 文档:仓库中提供全面指南

贡献

我们欢迎改进浏览器兼容性、性能和用户体验的贡献:

  • 针对不同硬件的性能优化
  • 浏览器兼容性改进
  • 文档增强
  • 示例应用和教程

<div align="center"> <img src="zhare-logo.png" alt="Zhare-AI" width="100" height="auto">

🚀 准备好直接在浏览器中创作精彩图像了吗?

该模型将 Stable Diffusion 的强大功能带入 Web 应用,同时完全保护您的数据隐私与安全。

由 Zhare-AI 用 ❤️ 为开源社区开发

🌐 访问 Zhare.ai | 📧 联系我们 | 💬 加入讨论

</div>

Zhare-AI/sd-1-5-webgpu

作者 Zhare-AI

text-to-image onnx
↓ 0 ♥ 6

创建时间: 2025-09-27 12:52:11+00:00

更新时间: 2025-10-23 20:58:36+00:00

在 Hugging Face 上查看

文件 (9)

.gitattributes
README.md
config.json
onnx/safety_checker.onnx ONNX
onnx/text_encoder.onnx ONNX
onnx/unet.onnx ONNX
onnx/vae_decoder.onnx ONNX
onnx/vae_encoder.onnx ONNX
zhare-logo.png