说明文档

Leffa: 基于注意力机制中的流场学习用于可控人物图像生成

如果喜欢请给我们点个 Star ⭐！

新闻

2025年2月26日. Leffa 被 CVPR 2025 录用。
2025年1月9日. 推理默认使用 float16，生成一张图片仅需 6 秒（在 A100 上）。
2025年1月2日. 更新掩码生成器以提升效果。添加 ref unet 加速，预测速度提升 30%。在高级选项中增加更多控制项以提升用户体验。支持输出中间结果以便于开发。尽情使用吧！
2024年12月18日. 感谢 @StartHua 将 Leffa 集成到 ComfyUI 中！这是仓库地址！
2024年12月16日. 在 DressCode 上训练的虚拟试穿模型发布。
2024年12月12日. HuggingFace 演示和模型（在 VITON-HD 上训练的虚拟试穿模型和在 DeepFashion 上训练的姿态迁移模型）发布。
2024年12月11日. 论文的 arXiv 版本发布。

Leffa 是一个用于可控人物图像生成的统一框架，能够精确操控外观（即虚拟试穿）和姿态（即姿态迁移）。

摘要

可控人物图像生成旨在基于参考图像生成人物图像，允许精确控制人物的外观或姿态。然而，尽管先前方法能够实现较高的整体图像质量，但往往会扭曲参考图像中的细粒度纹理细节。我们将这些失真归因于对参考图像中对应区域的注意力不足。为了解决这个问题，我们提出了基于注意力机制中的流场学习（Leffa），在训练过程中显式引导目标查询关注注意力层中正确的参考键。具体而言，这是通过在基于扩散模型的基线上对注意力图施加正则化损失来实现的。我们的大量实验表明，Leffa 在控制外观（虚拟试穿）和姿态（姿态迁移）方面达到了最先进的性能，在保持高图像质量的同时显著减少了细粒度细节失真。此外，我们展示了该损失函数具有模型无关性，可用于提升其他扩散模型的性能。

方法

我们的 Leffa 可控人物图像生成训练流程概览。左侧是基于扩散模型的基线；右侧是我们的 Leffa 损失。注意在训练期间 Isrc 和 Itgt 是同一张图像。

可视化

与其他方法的定性可视化结果对比。姿态迁移的输入人物图像是使用我们的虚拟试穿方法生成的。可视化结果表明，我们的方法不仅生成了高质量的图像，还大大减少了细粒度细节的失真。

安装

创建 conda 环境并安装依赖：

conda create -n leffa python==3.10
conda activate leffa
cd Leffa
pip install -r requirements.txt

Gradio 应用

本地运行：

python app.py

评估

我们使用这个代码进行指标评估。

致谢

我们的代码基于 Diffusers 和 Transformers。我们在演示中使用 SCHP 和 DensePose 生成掩码和 densepose。我们也参考了 IDM-VTON 和 CatVTON 的代码。

引用

如果您觉得我们的工作有帮助或受到启发，欢迎引用。

@article{zhou2024learning,
  title={Learning Flow Fields in Attention for Controllable Person Image Generation}, 
  author={Zhou, Zijian and Liu, Shikun and Han, Xiao and Liu, Haozhe and Ng, Kam Woh and Xie, Tian and Cong, Yuren and Li, Hang and Xu, Mengmeng and Pérez-Rúa, Juan-Manuel and Patel, Aditya and Xiang, Tao and Shi, Miaojing and He, Sen},
  journal={arXiv preprint arXiv:2412.08486},
  year={2024},
}

franciszzj/Leffa

作者 franciszzj

image-to-image

↓ 0 ♥ 340

创建时间: 2024-12-10 17:48:23+00:00

更新时间: 2025-09-11 11:38:11+00:00

在 Hugging Face 上查看

文件 (37)

.gitattributes

README.md

assets/leffa.png

assets/teaser.png

assets/vis_result.png

densepose/Base-DensePose-RCNN-FPN.yaml

densepose/densepose_rcnn_R_50_FPN_s1x.yaml

densepose/model_final_162be9.pkl

examples/garment/01449_00.jpg

examples/garment/01486_00.jpg

examples/garment/01853_00.jpg

examples/garment/02070_00.jpg

examples/garment/03553_00.jpg

examples/person1/01350_00.jpg

examples/person1/01376_00.jpg

examples/person1/01416_00.jpg

examples/person1/05976_00.jpg

examples/person1/06094_00.jpg

examples/person2/id_00003082_06_7_additional.jpg

examples/person2/id_00004040_02_1_front.jpg

examples/person2/id_00007832_01_1_front.jpg

examples/person2/id_00007873_01_4_full.jpg

examples/person2/id_00007873_02_2_side.jpg

humanparsing/parsing_atr.onnx ONNX

humanparsing/parsing_lip.onnx ONNX

openpose/body_pose_model.pth

pose_transfer.pth

schp/exp-schp-201908261155-lip.pth

schp/exp-schp-201908301523-atr.pth

stable-diffusion-inpainting/scheduler/scheduler_config.json

stable-diffusion-inpainting/unet/config.json

stable-diffusion-inpainting/vae/config.json

stable-diffusion-xl-1.0-inpainting-0.1/scheduler/scheduler_config.json

stable-diffusion-xl-1.0-inpainting-0.1/unet/config.json

stable-diffusion-xl-1.0-inpainting-0.1/vae/config.json

virtual_tryon.pth

virtual_tryon_dc.pth