AI新工具
banner

Magic Insert


介绍:

Magic Insert是一种能将不同风格的对象拖放到目标图像中并保持风格一致的方法。









Magic Insert

Magic Insert是一种全新的技术,旨在实现风格感知的拖放操作,即将一个图像中的主体(对象)拖动并放入风格截然不同的目标图像中,同时保持插入效果的风格一致性和真实性。其主要贡献在于公式化风格感知拖放问题,并通过解决风格感知个性化和真实对象插入两个子问题来应对这一挑战。

方法

风格感知个性化:首先,Magic Insert对预训练的文本到图像扩散模型进行微调,使用LoRA(低秩适配器)和学习的文本标记对主体图像进行个性化训练,同时将目标风格的CLIP表示注入模型。然后,在模型的噪声消除过程中,通过适配器风格注入步骤,将目标图像的风格嵌入到模型的图像生成过程中,从而生成既保留主体特征又符合目标风格的图像。

主体插入:为了将风格感知的个性化主体插入目标图像,方法包括将分割后的主体图像粘贴到目标图像上,然后通过主体插入模型处理整合,生成真实的阴影和反射效果,使主体自然地融合到新环境中。

自举域适应:通过使用自举域自适应,Magic Insert能够将专为摄影真实对象插入/移除训练的模型适应到更广泛的艺术风格领域。这包括初始清除目标域数据集中的主体和阴影,并过滤出错误结果,再用过滤后的数据重新训练模型,从而提升在多样化艺术风格中的表现。

结果表现

Magic Insert方法在风格感知插入任务上显著优于传统方法,例如修复和绘画等。对比其他顶尖基线方法(如StyleAlign + ControlNet和InstantStyle + ControlNet),Magic Insert的个性化生成表现出更高质量的图像,不模糊且有更好的对比效果。该方法还允许修改主体的关键属性(如增加装备或重新设计形象),并在保持风格一致性的同时提供极大的创造灵活性。

总体上,Magic Insert在各种艺术风格背景下(如写实场景、卡通和绘画)均展示了其有效性和多样性。此外,使用LLM引导进行姿势修改,增加了Magic Insert在提供合理姿势和环境交互方面的能力。

Magic Insert的发展得益于许多研究者的宝贵反馈,并且通过贡献的SubjectPlop数据集,促进了该领域的评估和未来进步。

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621