ONNX 模型库
返回模型

说明文档


license: cc-by-nc-4.0

language:

  • en library_name: diffusers pipeline_tag: text-to-image

tags:

  • Text-to-Image
  • FLUX.1-dev
  • image-generation
  • Diffusion-Transformer
  • subject-personalization base_model: black-forest-labs/FLUX.1-dev

InfiniteYou 模型卡片

<div style="display:flex;justify-content: center"> <a href="https://bytedance.github.io/InfiniteYou"><img src="https://img.shields.io/static/v1?label=Project&message=Page&color=blue&logo=github-pages"></a>   <a href="https://arxiv.org/abs/2503.16418"><img src="https://img.shields.io/static/v1?label=Arxiv&message=InfiniteYou&color=darkred&logo=arxiv"></a>   <a href="https://github.com/bytedance/InfiniteYou"><img src="https://img.shields.io/static/v1?label=GitHub&message=Code&color=green&logo=github"></a>   <a href="https://huggingface.co/spaces/ByteDance/InfiniteYou-FLUX"><img src="https://img.shields.io/static/v1?label=%F0%9F%A4%97%20Hugging%20Face&message=Demo&color=orange"></a>   </div>

teaser

本仓库提供以下论文的官方模型:

InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity<br /> Liming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Hao Kang, Xin Lu<br /> ByteDance Intelligent Creation

摘要: 实现灵活且高保真的身份保持图像生成仍然是一项艰巨的挑战,特别是对于像 FLUX 这样的先进 Diffusion Transformers (DiTs)。我们提出了 InfiniteYou (InfU),这是最早利用 DiTs 完成此任务的稳健框架之一。InfU 解决了现有方法的重要问题,如身份相似度不足、文本-图像对齐差以及生成质量和美学水平低。InfU 的核心是 InfuseNet,这是一个通过残差连接将身份特征注入到 DiT 基础模型中的组件,在增强身份相似度的同时保持生成能力。一种多阶段训练策略,包括预训练和使用合成单人多样本 (SPMS) 数据的监督微调 (SFT),进一步改善了文本-图像对齐,提升了图像质量,并缓解了面部复制粘贴问题。大量实验表明,InfU 达到了最先进的性能,超越了现有基线。此外,InfU 的即插即用设计确保了与各种现有方法的兼容性,为更广泛的社区提供了有价值的贡献。

🔧 安装与使用

请克隆我们的 GitHub 代码仓库 并按照 详细说明 安装和使用发布的模型进行本地推理。

我们感谢 Hugging Face 团队提供的 GPU 资助。 您也可以在线试用我们的 InfiniteYou-FLUX Hugging Face 演示

💡 重要使用提示

  • 我们发布了 InfiniteYou-FLUX v1.0 的两个模型变体:aes_stage2sim_stage1aes_stage2 是我们经过第二阶段 SFT 后的模型,默认用于更好的文本-图像对齐和美学效果。如果您希望获得更高的身份相似度,请尝试 sim_stage1

  • 为了更好地满足特定的个人需求,我们发现调整我们 代码 中的两个参数非常有用:--infusenet_conditioning_scale(默认值:1.0)和 --infusenet_guidance_start(默认值:0.0)。通常,您可能不需要调整它们。如有必要,首先尝试稍微增大 --infusenet_guidance_start(例如 0.1)(尤其对 sim_stage1 有帮助)。如果仍不满意,再尝试稍微减小 --infusenet_conditioning_scale(例如 0.9)。

  • 我们还提供了两个 LoRA(RealismAnti-blur)以提供额外的使用灵活性。它们完全是可选的,是方便用户尝试的示例,但未在我们的论文中使用。

  • 如果生成的性别不符合预期,请尝试在文本提示中添加特定词语,如"a man"(一个男人)、"a woman"(一个女人)等。我们鼓励使用包容和尊重的语言。

🏰 模型库

InfiniteYou 版本 模型版本 训练所用的基础模型 描述
InfiniteYou-FLUX v1.0 aes_stage2 FLUX.1-dev 经过 SFT 的第二阶段模型。更好的文本-图像对齐和美学效果。
InfiniteYou-FLUX v1.0 sim_stage1 FLUX.1-dev SFT 之前的第一阶段模型。更高的身份相似度。

🆚 与最先进相关方法的比较

comparative_results

InfU 与最先进基线 FLUX.1-dev IP-Adapter 和 PuLID-FLUX 的定性比较结果。FLUX.1-dev IP-Adapter (IPA) 生成结果的身份相似度和文本-图像对齐不足。PuLID-FLUX 生成的图像具有不错的身份相似度。然而,它存在文本-图像对齐差的问题(第 1、2、4 列),并且图像质量(例如第 5 列中的手部问题)和美学吸引力有所下降。此外,PuLID-FLUX 的面部复制粘贴问题很明显(第 5 列)。相比之下,所提出的 InfU 在所有维度上都超越了基线。

⚙️ 与现成热门方法的即插即用特性

plug_and_play

InfU 具有理想的即插即用设计,与许多现有方法兼容。它自然支持用 FLUX.1-dev 的任何变体替换基础模型,例如 FLUX.1-schnell 用于更高效的生成(例如在 4 步内)。与 ControlNets 和 LoRA 的兼容性为定制任务提供了更多的可控性和灵活性。值得注意的是,与 OminiControl 的兼容性扩展了我们在多概念个性化方面的潜力,例如交互式身份 (ID) 和对象个性化生成。InfU 还与 IP-Adapter (IPA) 兼容,用于个性化图像的风格化,当通过 IPA 注入风格参考时可以产生不错的结果。我们的即插即用功能可能扩展到更多方法,为更广泛的社区提供有价值的贡献。

📜 免责声明和许可

本仓库和相关演示中使用的大多数图像来自经同意的受试者,少数来自公共领域或由模型生成。这些图片仅用于展示我们研究的能力。如果您有任何疑虑,请随时联系我们,我们将及时删除任何不当内容。

我们的模型根据 Creative Commons Attribution-NonCommercial 4.0 International Public License 发布,仅用于学术研究目的。任何手动或自动从 InsightFace 下载面部模型、FLUX.1-dev 基础模型、LoRA(RealismAnti-blur)等,必须遵循其原始许可,并仅用于学术研究目的。

本研究旨在对生成式 AI 领域产生积极影响。用户被授予使用此工具创建图像的自由,但必须遵守当地法律并负责任地使用。开发者不对用户的潜在误用承担任何责任。

📖 引用

如果您发现 InfiniteYou 对您的研究或应用有用,请引用我们的论文:

@article{jiang2025infiniteyou,
  title={{InfiniteYou}: Flexible Photo Recrafting While Preserving Your Identity},
  author={Jiang, Liming and Yan, Qing and Jia, Yumin and Liu, Zichuan and Kang, Hao and Lu, Xin},
  journal={arXiv preprint},
  volume={arXiv:2503.16418},
  year={2025}
}

如果您能给我们的 Github 仓库 点个星 ⭐,我们也非常感谢。非常感谢!

jobs-git/InfiniteYou

作者 jobs-git

text-to-image diffusers
↓ 0 ♥ 0

创建时间: 2025-03-22 12:19:50+00:00

更新时间: 2025-03-22 12:19:50+00:00

在 Hugging Face 上查看

文件 (23)

.gitattributes
LICENSE
README.md
assets/comparative_results.jpg
assets/plug_and_play.jpg
assets/teaser.jpg
infu_flux_v1.0/aes_stage2/InfuseNetModel/config.json
infu_flux_v1.0/aes_stage2/InfuseNetModel/diffusion_pytorch_model-00001-of-00002.safetensors
infu_flux_v1.0/aes_stage2/InfuseNetModel/diffusion_pytorch_model-00002-of-00002.safetensors
infu_flux_v1.0/aes_stage2/InfuseNetModel/diffusion_pytorch_model.safetensors.index.json
infu_flux_v1.0/aes_stage2/image_proj_model.bin
infu_flux_v1.0/sim_stage1/InfuseNetModel/config.json
infu_flux_v1.0/sim_stage1/InfuseNetModel/diffusion_pytorch_model-00001-of-00002.safetensors
infu_flux_v1.0/sim_stage1/InfuseNetModel/diffusion_pytorch_model-00002-of-00002.safetensors
infu_flux_v1.0/sim_stage1/InfuseNetModel/diffusion_pytorch_model.safetensors.index.json
infu_flux_v1.0/sim_stage1/image_proj_model.bin
supports/insightface/models/antelopev2/1k3d68.onnx ONNX
supports/insightface/models/antelopev2/2d106det.onnx ONNX
supports/insightface/models/antelopev2/genderage.onnx ONNX
supports/insightface/models/antelopev2/glintr100.onnx ONNX
supports/insightface/models/antelopev2/scrfd_10g_bnkps.onnx ONNX
supports/optional_loras/flux_anti_blur_lora.safetensors
supports/optional_loras/flux_realism_lora.safetensors