说明文档
license: cc-by-nc-4.0
language:
- en library_name: diffusers pipeline_tag: text-to-image
tags:
- Text-to-Image
- FLUX.1-dev
- image-generation
- Diffusion-Transformer
- subject-personalization base_model: black-forest-labs/FLUX.1-dev
InfiniteYou 模型卡片
<div style="display:flex;justify-content: center"> <a href="https://bytedance.github.io/InfiniteYou"><img src="https://img.shields.io/static/v1?label=Project&message=Page&color=blue&logo=github-pages"></a> <a href="https://arxiv.org/abs/2503.16418"><img src="https://img.shields.io/static/v1?label=Arxiv&message=InfiniteYou&color=darkred&logo=arxiv"></a> <a href="https://github.com/bytedance/InfiniteYou"><img src="https://img.shields.io/static/v1?label=GitHub&message=Code&color=green&logo=github"></a> <a href="https://huggingface.co/spaces/ByteDance/InfiniteYou-FLUX"><img src="https://img.shields.io/static/v1?label=%F0%9F%A4%97%20Hugging%20Face&message=Demo&color=orange"></a> </div>

本仓库提供以下论文的官方模型:
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity<br /> Liming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Hao Kang, Xin Lu<br /> ByteDance Intelligent Creation
摘要: 实现灵活且高保真的身份保持图像生成仍然是一项艰巨的挑战,特别是对于像 FLUX 这样的先进 Diffusion Transformers (DiTs)。我们提出了 InfiniteYou (InfU),这是最早利用 DiTs 完成此任务的稳健框架之一。InfU 解决了现有方法的重要问题,如身份相似度不足、文本-图像对齐差以及生成质量和美学水平低。InfU 的核心是 InfuseNet,这是一个通过残差连接将身份特征注入到 DiT 基础模型中的组件,在增强身份相似度的同时保持生成能力。一种多阶段训练策略,包括预训练和使用合成单人多样本 (SPMS) 数据的监督微调 (SFT),进一步改善了文本-图像对齐,提升了图像质量,并缓解了面部复制粘贴问题。大量实验表明,InfU 达到了最先进的性能,超越了现有基线。此外,InfU 的即插即用设计确保了与各种现有方法的兼容性,为更广泛的社区提供了有价值的贡献。
🔧 安装与使用
请克隆我们的 GitHub 代码仓库 并按照 详细说明 安装和使用发布的模型进行本地推理。
我们感谢 Hugging Face 团队提供的 GPU 资助。 您也可以在线试用我们的 InfiniteYou-FLUX Hugging Face 演示。
💡 重要使用提示
-
我们发布了 InfiniteYou-FLUX v1.0 的两个模型变体:aes_stage2 和 sim_stage1。
aes_stage2是我们经过第二阶段 SFT 后的模型,默认用于更好的文本-图像对齐和美学效果。如果您希望获得更高的身份相似度,请尝试sim_stage1。 -
为了更好地满足特定的个人需求,我们发现调整我们 代码 中的两个参数非常有用:
--infusenet_conditioning_scale(默认值:1.0)和--infusenet_guidance_start(默认值:0.0)。通常,您可能不需要调整它们。如有必要,首先尝试稍微增大--infusenet_guidance_start(例如0.1)(尤其对sim_stage1有帮助)。如果仍不满意,再尝试稍微减小--infusenet_conditioning_scale(例如0.9)。 -
我们还提供了两个 LoRA(Realism 和 Anti-blur)以提供额外的使用灵活性。它们完全是可选的,是方便用户尝试的示例,但未在我们的论文中使用。
-
如果生成的性别不符合预期,请尝试在文本提示中添加特定词语,如"a man"(一个男人)、"a woman"(一个女人)等。我们鼓励使用包容和尊重的语言。
🏰 模型库
| InfiniteYou 版本 | 模型版本 | 训练所用的基础模型 | 描述 |
|---|---|---|---|
| InfiniteYou-FLUX v1.0 | aes_stage2 | FLUX.1-dev | 经过 SFT 的第二阶段模型。更好的文本-图像对齐和美学效果。 |
| InfiniteYou-FLUX v1.0 | sim_stage1 | FLUX.1-dev | SFT 之前的第一阶段模型。更高的身份相似度。 |
🆚 与最先进相关方法的比较

InfU 与最先进基线 FLUX.1-dev IP-Adapter 和 PuLID-FLUX 的定性比较结果。FLUX.1-dev IP-Adapter (IPA) 生成结果的身份相似度和文本-图像对齐不足。PuLID-FLUX 生成的图像具有不错的身份相似度。然而,它存在文本-图像对齐差的问题(第 1、2、4 列),并且图像质量(例如第 5 列中的手部问题)和美学吸引力有所下降。此外,PuLID-FLUX 的面部复制粘贴问题很明显(第 5 列)。相比之下,所提出的 InfU 在所有维度上都超越了基线。
⚙️ 与现成热门方法的即插即用特性

InfU 具有理想的即插即用设计,与许多现有方法兼容。它自然支持用 FLUX.1-dev 的任何变体替换基础模型,例如 FLUX.1-schnell 用于更高效的生成(例如在 4 步内)。与 ControlNets 和 LoRA 的兼容性为定制任务提供了更多的可控性和灵活性。值得注意的是,与 OminiControl 的兼容性扩展了我们在多概念个性化方面的潜力,例如交互式身份 (ID) 和对象个性化生成。InfU 还与 IP-Adapter (IPA) 兼容,用于个性化图像的风格化,当通过 IPA 注入风格参考时可以产生不错的结果。我们的即插即用功能可能扩展到更多方法,为更广泛的社区提供有价值的贡献。
📜 免责声明和许可
本仓库和相关演示中使用的大多数图像来自经同意的受试者,少数来自公共领域或由模型生成。这些图片仅用于展示我们研究的能力。如果您有任何疑虑,请随时联系我们,我们将及时删除任何不当内容。
我们的模型根据 Creative Commons Attribution-NonCommercial 4.0 International Public License 发布,仅用于学术研究目的。任何手动或自动从 InsightFace 下载面部模型、FLUX.1-dev 基础模型、LoRA(Realism 和 Anti-blur)等,必须遵循其原始许可,并仅用于学术研究目的。
本研究旨在对生成式 AI 领域产生积极影响。用户被授予使用此工具创建图像的自由,但必须遵守当地法律并负责任地使用。开发者不对用户的潜在误用承担任何责任。
📖 引用
如果您发现 InfiniteYou 对您的研究或应用有用,请引用我们的论文:
@article{jiang2025infiniteyou,
title={{InfiniteYou}: Flexible Photo Recrafting While Preserving Your Identity},
author={Jiang, Liming and Yan, Qing and Jia, Yumin and Liu, Zichuan and Kang, Hao and Lu, Xin},
journal={arXiv preprint},
volume={arXiv:2503.16418},
year={2025}
}
如果您能给我们的 Github 仓库 点个星 ⭐,我们也非常感谢。非常感谢!
jobs-git/InfiniteYou
作者 jobs-git
创建时间: 2025-03-22 12:19:50+00:00
更新时间: 2025-03-22 12:19:50+00:00
在 Hugging Face 上查看