说明文档
<div align="center"> <img src="zhare-logo.png" alt="Zhare-AI Logo" width="200" height="auto" style="margin-bottom: 20px;"> </div>
Stable Diffusion 1.5 WebGPU - Zhare-AI
<div align="center">
基于 WebGPU 加速的隐私保护浏览器端文本生成图像
</div>
这是一个针对浏览器优化的 Stable Diffusion v1.5 实现,专门为使用 WebGPU 加速的客户端部署进行了转换和优化。由 Zhare-AI 开发,该模型能够在 Web 浏览器中直接生成高质量图像,无需服务器基础设施,确保完全的用户隐私和数据主权。
<div align="center"> <img src="zhare-logo.png" alt="Zhare-AI - 普及 AI" width="150" height="auto"> <p><em>通过分布式计算和隐私保护技术普及 AI</em></p> </div>
🌟 主要特性
- 🌐 完全客户端运行:在浏览器中完成图像生成,数据不离开您的设备
- ⚡ WebGPU 加速:硬件加速推理,自动 WebAssembly 回退
- 🔒 隐私优先:所有处理均在本地进行,保护用户提示词和生成内容
- 📱 跨平台:兼容桌面和移动浏览器
- 🛠️ 生产就绪:针对实际 Web 应用优化
🚀 快速开始
安装与设置
# 克隆或下载模型
git lfs install
git clone https://huggingface.co/Zhare-AI/sd-1-5-webgpu
📊 性能规格
模型架构
| 组件 | 描述 | 大小(约) |
|---|---|---|
| 文本编码器 | CLIP ViT-L/14 用于文本理解 | ~500MB |
| UNet | 图像生成核心扩散模型 | ~3.4GB |
| VAE 解码器 | 将潜空间转换为最终图像 | ~160MB |
| VAE 编码器 | 将图像编码到潜空间 | ~160MB |
| 安全检查器 | 内容过滤(可选) | ~600MB |
模型总大小:~4.8GB(不含安全检查器:~4.2GB)
浏览器性能基准
512×512 图像、20 步推理的生成时间:
| 硬件类别 | 示例设备 | 典型性能 |
|---|---|---|
| 高端桌面 | RTX 4090、RTX 4080 | 3-8 秒 |
| 游戏桌面 | RTX 3080、RTX 3070 | 8-15 秒 |
| Intel Arc GPU | Arc A750、Arc A770 | 8-15 秒 |
| AMD 高端 | RX 7900 XT/XTX | 6-12 秒 |
| Apple Silicon | M2 Max、M1 Ultra | 10-20 秒 |
| 集成显卡 | Intel Iris Xe | 25-50 秒 |
| WebAssembly 回退 | 仅 CPU 设备 | 2-10 分钟 |
系统要求
- 最低显存:4GB(推荐:6GB+)
- 系统内存:最低 8GB,推荐 16GB
- 存储空间:5GB 可用空间用于模型文件
- 浏览器:Chrome 113+、Edge 113+(WebGPU),或任何现代浏览器(WebAssembly 回退)
🌐 浏览器兼容性
| 浏览器 | WebGPU 支持 | 性能水平 | 备注 |
|---|---|---|---|
| Chrome 113+ | ✅ 完全支持 | 优秀 | 首要推荐 |
| Microsoft Edge 113+ | ✅ 完全支持 | 优秀 | 首要推荐 |
| Firefox 141+ | ✅ 稳定支持 | 很好 | 近期实现的 WebGPU |
| Safari 17.4+ | 🔶 实验性 | 良好 | 需开启功能标志 |
| 移动版 Chrome 121+ | 🔶 有限 | 一般 | 仅限 Android,内存有限 |
所有浏览器均支持 WebAssembly 回退以确保通用兼容性
📝 模型详情
训练信息
该模型基于 Stable Diffusion v1.5,具有以下训练特征:
- 基础数据集:LAION-5B 过滤子集(~5.9 亿图文对)
- 训练分辨率:512×512 像素
- 架构:使用 CLIP ViT-L/14 文本编码器的潜在扩散模型
- 精度:原 FP32 训练,优化为 FP16 用于浏览器部署
Web 部署优化
- ONNX 转换:针对 Web 推理优化的计算图
- WebGPU 内核:用于 GPU 加速的自定义计算着色器
- 内存效率:注意力切片和动态内存管理
- 跨平台:WebAssembly 回退确保通用浏览器支持
🛡️ 伦理使用与安全
内置安全功能
- 内容过滤器:可选的 NSFW 检测和过滤
- 提示词净化:对潜在有害提示词的基础过滤
- 本地处理:无数据传输确保隐私保护
负责任使用指南
✅ 鼓励的用途:
- 创意艺术和设计项目
- AI 能力的教育演示
- 应用的快速原型开发
- 个人创意探索
- 研究与开发
❌ 禁止的用途:
- 创造有害、冒犯性或非法内容
- 生成误导性信息或深度伪造
- 侵犯版权或知识产权
- 任何违反 CreativeML OpenRAIL-M 许可条款的使用
隐私与数据保护
- 零数据收集:所有处理均在浏览器本地进行
- 无服务器通信:初始下载后模型完全离线运行
- 用户控制:对生成内容和提示词的完全控制
- 符合 GDPR:无个人数据处理或存储
⚠️ 限制与注意事项
技术限制
- 分辨率:针对 512×512 优化(其他分辨率可能降低质量)
- 批大小:浏览器环境中仅支持单图像生成
- 内存约束:受浏览器和设备显存/内存限制
- 生成速度:比专用服务器硬件慢
内容限制
- 语言偏差:英文提示词效果最佳
- 文化代表性:训练数据可能反映西方/英语地区偏差
- 艺术风格:倾向于照片写实和数字艺术风格
- 一致性:相同提示词的多次生成可能有显著差异
浏览器特定注意事项
- WebGPU 可用性:仅限于支持的浏览器和设备
- 内存管理:浏览器安全限制可能影响大型模型加载
- 性能差异:不同设备和浏览器间存在显著差异
📜 许可证:CreativeML OpenRAIL-M
该模型采用 CreativeML OpenRAIL-M 许可证发布,允许:
✅ 许可:
- 商业和非商业用途
- 分发和修改
- 创作衍生作品
- 集成到应用和服务中
🚫 限制:
- 不得用于生成有害内容
- 不得用于非法活动
- 任何分发必须包含许可条款
- 衍生作品必须保持相同的许可限制
完整许可文本:详见 CreativeML OpenRAIL-M License
许可合规
使用此模型时:
- 包含许可证:向最终用户提供许可条款
- 遵守限制:确保用例符合内容限制
- 衍生作品:对修改版本适用相同许可证
- 归属说明:注明原始 Stable Diffusion 创作者和 Zhare-AI 适配
🏢 关于 Zhare-AI
<div align="center"> <img src="zhare-logo.png" alt="Zhare-AI" width="120" height="auto" style="margin: 20px 0;"> </div>
Zhare-AI 致力于通过使强大的模型直接在 Web 浏览器中可用,来普及 AI 技术。我们的使命是打造保护隐私的 AI 应用,让用户掌控自己的数据和创作过程。
- 网站:zhare.ai
- 专注领域:分布式 AI 计算和基于浏览器的 AI 应用
- 理念:隐私优先、用户控制的 AI 体验
- 愿景:让 AI 触手可及、私密且分布式
我们的使命
我们相信 AI 应该:
- 可及——人人可用,无论基础设施如何
- 私密——用户完全掌控数据
- 分布式——跨设备而非集中式服务器
- 透明——开源实现
📚 引用与参考
引用本工作
@misc{zhare-ai-sd15-webgpu-2025,
title={Stable Diffusion 1.5 WebGPU: Browser-Optimized Text-to-Image Generation},
author={Zhare-AI},
year={2025},
howpublished={\url{https://huggingface.co/Zhare-AI/sd-1-5-webgpu}},
note={WebGPU-optimized implementation for privacy-preserving browser-based image generation}
}
原始 Stable Diffusion 引用
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Björn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
🤝 社区与支持
获取帮助
- 问题反馈:通过仓库 issues 报告技术问题
- 讨论交流:加入社区讨论获取技巧和示例
- 文档:仓库中提供全面指南
贡献
我们欢迎改进浏览器兼容性、性能和用户体验的贡献:
- 针对不同硬件的性能优化
- 浏览器兼容性改进
- 文档增强
- 示例应用和教程
<div align="center"> <img src="zhare-logo.png" alt="Zhare-AI" width="100" height="auto">
🚀 准备好直接在浏览器中创作精彩图像了吗?
该模型将 Stable Diffusion 的强大功能带入 Web 应用,同时完全保护您的数据隐私与安全。
由 Zhare-AI 用 ❤️ 为开源社区开发
🌐 访问 Zhare.ai | 📧 联系我们 | 💬 加入讨论
</div>
Zhare-AI/sd-1-5-webgpu
作者 Zhare-AI
创建时间: 2025-09-27 12:52:11+00:00
更新时间: 2025-10-23 20:58:36+00:00
在 Hugging Face 上查看