说明文档

license: mit pipeline_tag: image-to-image

Leffa: 基于注意力机制中的流场学习实现可控人物图像生成

如果您喜欢，请给我们点个 Star ⭐ ！

新闻

2025年1月9日。推理默认使用 float16，在 A100 上生成一张图像仅需 6 秒。
2025年1月2日。更新了遮罩生成器以改善结果。添加了 ref unet 加速，预测速度提升 30%。在高级选项中增加了更多控制功能以提升用户体验。支持输出中间结果以便于开发。尽情使用吧！
2024年12月18日。感谢 @StartHua 将 Leffa 集成到 ComfyUI 中！仓库地址：repo！
2024年12月16日。在 DressCode 上训练的虚拟试穿模型已发布。
2024年12月12日。HuggingFace 演示和模型（在 VITON-HD 上训练的虚拟试穿模型和在 DeepFashion 上训练的姿态迁移模型）已发布。
2024年12月11日。论文的 arXiv 版本已发布。

Leffa 是一个用于可控人物图像生成的统一框架，能够精确操控外观（即虚拟试穿）和姿态（即姿态迁移）。

摘要

可控人物图像生成旨在基于参考图像生成人物图像，允许精确控制人物的外观或姿态。然而，尽管现有方法能够实现较高的整体图像质量，但往往会扭曲参考图像中的细粒度纹理细节。我们将这些失真归因于对参考图像中对应区域的注意力不足。为了解决这个问题，我们提出了基于注意力机制中的流场学习（Leffa），在训练过程中显式引导目标查询关注注意力层中正确的参考键。具体而言，这是通过在基于扩散模型的基线上对注意力图施加正则化损失来实现的。我们的大量实验表明，Leffa 在控制外观（虚拟试穿）和姿态（姿态迁移）方面达到了最先进的性能，在保持高图像质量的同时显著减少了细粒度细节失真。此外，我们展示了该损失函数具有模型无关性，可用于提升其他扩散模型的性能。

方法

我们的 Leffa 可控人物图像生成训练流程概览。左侧是基于扩散模型的基线；右侧是我们的 Leffa 损失。注意，在训练期间 Isrc 和 Itgt 是同一张图像。

可视化

与其他方法的定性视觉结果比较。姿态迁移的输入人物图像是使用我们的虚拟试穿方法生成的。可视化结果表明，我们的方法不仅生成了高质量的图像，还大大减少了细粒度细节的失真。

安装

创建 conda 环境并安装依赖：

conda create -n leffa python==3.10
conda activate leffa
cd Leffa
pip install -r requirements.txt

Gradio 应用

本地运行：

python app.py

评估

我们使用此代码进行指标评估。

致谢

我们的代码基于 Diffusers 和 Transformers。我们在演示中使用 SCHP 和 DensePose 生成遮罩和 densepose。我们还参考了 IDM-VTON 和 CatVTON 的代码。

引用

如果您觉得我们的工作有帮助或启发，请随时引用。

@article{zhou2024learning,
  title={Learning Flow Fields in Attention for Controllable Person Image Generation}, 
  author={Zhou, Zijian and Liu, Shikun and Han, Xiao and Liu, Haozhe and Ng, Kam Woh and Xie, Tian and Cong, Yuren and Li, Hang and Xu, Mengmeng and Pérez-Rúa, Juan-Manuel and Patel, Aditya and Xiang, Tao and Shi, Miaojing and He, Sen},
  journal={arXiv preprint arXiv:2412.08486},
  year={2024},
}

GenieLamp/VTON

作者 GenieLamp

image-to-image

↓ 0 ♥ 3

创建时间: 2025-05-12 19:43:15+00:00

更新时间: 2025-05-12 21:14:04+00:00

在 Hugging Face 上查看

文件 (37)

.gitattributes

README.md

assets/leffa.png

assets/teaser.png

assets/vis_result.png

densepose/Base-DensePose-RCNN-FPN.yaml

densepose/densepose_rcnn_R_50_FPN_s1x.yaml

densepose/model_final_162be9.pkl

examples/garment/01449_00.jpg

examples/garment/01486_00.jpg

examples/garment/01853_00.jpg

examples/garment/02070_00.jpg

examples/garment/03553_00.jpg

examples/person1/01350_00.jpg

examples/person1/01376_00.jpg

examples/person1/01416_00.jpg

examples/person1/05976_00.jpg

examples/person1/06094_00.jpg

examples/person2/01850_00.jpg

examples/person2/01875_00.jpg

examples/person2/02532_00.jpg

examples/person2/02902_00.jpg

examples/person2/05346_00.jpg

humanparsing/parsing_atr.onnx ONNX

humanparsing/parsing_lip.onnx ONNX

openpose/body_pose_model.pth

pose_transfer.pth

schp/exp-schp-201908261155-lip.pth

schp/exp-schp-201908301523-atr.pth

stable-diffusion-inpainting/scheduler/scheduler_config.json

stable-diffusion-inpainting/unet/config.json

stable-diffusion-inpainting/vae/config.json

stable-diffusion-xl-1.0-inpainting-0.1/scheduler/scheduler_config.json

stable-diffusion-xl-1.0-inpainting-0.1/unet/config.json

stable-diffusion-xl-1.0-inpainting-0.1/vae/config.json

virtual_tryon.pth

virtual_tryon_dc.pth