说明文档

license: cc-by-nc-4.0

language:

en library_name: diffusers pipeline_tag: text-to-image

tags:

Text-to-Image
FLUX.1-dev
image-generation
Diffusion-Transformer
subject-personalization base_model: black-forest-labs/FLUX.1-dev

InfiniteYou 模型卡片

teaser

本仓库提供以下论文的官方模型：

InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity<br /> Liming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Hao Kang, Xin Lu<br /> ByteDance Intelligent Creation

摘要: 实现灵活且高保真的身份保持图像生成仍然是一项艰巨的挑战，特别是对于像 FLUX 这样的先进 Diffusion Transformers (DiTs)。我们提出了 InfiniteYou (InfU)，这是最早利用 DiTs 完成此任务的稳健框架之一。InfU 解决了现有方法的重要问题，如身份相似度不足、文本-图像对齐差以及生成质量和美学水平低。InfU 的核心是 InfuseNet，这是一个通过残差连接将身份特征注入到 DiT 基础模型中的组件，在增强身份相似度的同时保持生成能力。一种多阶段训练策略，包括预训练和使用合成单人多样本 (SPMS) 数据的监督微调 (SFT)，进一步改善了文本-图像对齐，提升了图像质量，并缓解了面部复制粘贴问题。大量实验表明，InfU 达到了最先进的性能，超越了现有基线。此外，InfU 的即插即用设计确保了与各种现有方法的兼容性，为更广泛的社区提供了有价值的贡献。

🔧 安装与使用

请克隆我们的 GitHub 代码仓库并按照详细说明安装和使用发布的模型进行本地推理。

我们感谢 Hugging Face 团队提供的 GPU 资助。您也可以在线试用我们的 InfiniteYou-FLUX Hugging Face 演示。

💡 重要使用提示

我们发布了 InfiniteYou-FLUX v1.0 的两个模型变体：aes_stage2 和 sim_stage1。aes_stage2 是我们经过第二阶段 SFT 后的模型，默认用于更好的文本-图像对齐和美学效果。如果您希望获得更高的身份相似度，请尝试 sim_stage1。
为了更好地满足特定的个人需求，我们发现调整我们代码中的两个参数非常有用：--infusenet_conditioning_scale（默认值：1.0）和 --infusenet_guidance_start（默认值：0.0）。通常，您可能不需要调整它们。如有必要，首先尝试稍微增大 --infusenet_guidance_start（例如 0.1）（尤其对 sim_stage1 有帮助）。如果仍不满意，再尝试稍微减小 --infusenet_conditioning_scale（例如 0.9）。
我们还提供了两个 LoRA（Realism 和 Anti-blur）以提供额外的使用灵活性。它们完全是可选的，是方便用户尝试的示例，但未在我们的论文中使用。
如果生成的性别不符合预期，请尝试在文本提示中添加特定词语，如"a man"（一个男人）、"a woman"（一个女人）等。我们鼓励使用包容和尊重的语言。

🏰 模型库

InfiniteYou 版本	模型版本	训练所用的基础模型	描述
InfiniteYou-FLUX v1.0	aes_stage2	FLUX.1-dev	经过 SFT 的第二阶段模型。更好的文本-图像对齐和美学效果。
InfiniteYou-FLUX v1.0	sim_stage1	FLUX.1-dev	SFT 之前的第一阶段模型。更高的身份相似度。

🆚 与最先进相关方法的比较

comparative_results

InfU 与最先进基线 FLUX.1-dev IP-Adapter 和 PuLID-FLUX 的定性比较结果。FLUX.1-dev IP-Adapter (IPA) 生成结果的身份相似度和文本-图像对齐不足。PuLID-FLUX 生成的图像具有不错的身份相似度。然而，它存在文本-图像对齐差的问题（第 1、2、4 列），并且图像质量（例如第 5 列中的手部问题）和美学吸引力有所下降。此外，PuLID-FLUX 的面部复制粘贴问题很明显（第 5 列）。相比之下，所提出的 InfU 在所有维度上都超越了基线。

⚙️ 与现成热门方法的即插即用特性

plug_and_play

InfU 具有理想的即插即用设计，与许多现有方法兼容。它自然支持用 FLUX.1-dev 的任何变体替换基础模型，例如 FLUX.1-schnell 用于更高效的生成（例如在 4 步内）。与 ControlNets 和 LoRA 的兼容性为定制任务提供了更多的可控性和灵活性。值得注意的是，与 OminiControl 的兼容性扩展了我们在多概念个性化方面的潜力，例如交互式身份 (ID) 和对象个性化生成。InfU 还与 IP-Adapter (IPA) 兼容，用于个性化图像的风格化，当通过 IPA 注入风格参考时可以产生不错的结果。我们的即插即用功能可能扩展到更多方法，为更广泛的社区提供有价值的贡献。

📜 免责声明和许可

本仓库和相关演示中使用的大多数图像来自经同意的受试者，少数来自公共领域或由模型生成。这些图片仅用于展示我们研究的能力。如果您有任何疑虑，请随时联系我们，我们将及时删除任何不当内容。

我们的模型根据 Creative Commons Attribution-NonCommercial 4.0 International Public License 发布，仅用于学术研究目的。任何手动或自动从 InsightFace 下载面部模型、FLUX.1-dev 基础模型、LoRA（Realism 和 Anti-blur）等，必须遵循其原始许可，并仅用于学术研究目的。

本研究旨在对生成式 AI 领域产生积极影响。用户被授予使用此工具创建图像的自由，但必须遵守当地法律并负责任地使用。开发者不对用户的潜在误用承担任何责任。

📖 引用

如果您发现 InfiniteYou 对您的研究或应用有用，请引用我们的论文：

@article{jiang2025infiniteyou,
  title={{InfiniteYou}: Flexible Photo Recrafting While Preserving Your Identity},
  author={Jiang, Liming and Yan, Qing and Jia, Yumin and Liu, Zichuan and Kang, Hao and Lu, Xin},
  journal={arXiv preprint},
  volume={arXiv:2503.16418},
  year={2025}
}

如果您能给我们的 Github 仓库点个星 ⭐，我们也非常感谢。非常感谢！

jobs-git/InfiniteYou

作者 jobs-git

text-to-image diffusers

↓ 0 ♥ 0

创建时间: 2025-03-22 12:19:50+00:00

更新时间: 2025-03-22 12:19:50+00:00

在 Hugging Face 上查看

文件 (23)

.gitattributes

LICENSE

README.md

assets/comparative_results.jpg

assets/plug_and_play.jpg

assets/teaser.jpg

infu_flux_v1.0/aes_stage2/InfuseNetModel/config.json

infu_flux_v1.0/aes_stage2/InfuseNetModel/diffusion_pytorch_model-00001-of-00002.safetensors

infu_flux_v1.0/aes_stage2/InfuseNetModel/diffusion_pytorch_model-00002-of-00002.safetensors

infu_flux_v1.0/aes_stage2/InfuseNetModel/diffusion_pytorch_model.safetensors.index.json

infu_flux_v1.0/aes_stage2/image_proj_model.bin

infu_flux_v1.0/sim_stage1/InfuseNetModel/config.json

infu_flux_v1.0/sim_stage1/InfuseNetModel/diffusion_pytorch_model-00001-of-00002.safetensors

infu_flux_v1.0/sim_stage1/InfuseNetModel/diffusion_pytorch_model-00002-of-00002.safetensors

infu_flux_v1.0/sim_stage1/InfuseNetModel/diffusion_pytorch_model.safetensors.index.json

infu_flux_v1.0/sim_stage1/image_proj_model.bin

supports/insightface/models/antelopev2/1k3d68.onnx ONNX

supports/insightface/models/antelopev2/2d106det.onnx ONNX

supports/insightface/models/antelopev2/genderage.onnx ONNX

supports/insightface/models/antelopev2/glintr100.onnx ONNX

supports/insightface/models/antelopev2/scrfd_10g_bnkps.onnx ONNX

supports/optional_loras/flux_anti_blur_lora.safetensors

supports/optional_loras/flux_realism_lora.safetensors