AI 文摘

1小时完成个性化生成训练!SalesforceAI提出BootPIG新框架!





作者: 人工智能技术与时代人物风云 来源: 人工智能技术与时代人物风云

数源AI 知识星球

数源AI论文推荐知识星球(每日最新论文及资料包,包含目标检测,图像分割,图像识别检索,视觉预训练,3D/点云/视频, 图像超分/去噪,GAN/Diffusion,LLM,ImageCaptioning,VQA,视觉语言预训练,MLLM,Text2Image,OpenVocabulary,语音技术,机器人技术,增量/连续学习,自动驾驶,遥感,医学,量化/剪枝/加速,机器翻译/强化学习,NRF,Visual Counting,时序建模 等方向)

DataSource

AI

数源AI|知识星球

论文|代码 | 教程

数源AI 最新论文解读系列

论文名:BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities inPretrained Diffusion Models

论文链接:https://arxiv.org/pdf/2401.13974.pdf

引言

在过去几年中,生成模型的研究推动了技术创新的边界并开启了创造性表达的新途径。在计算机视觉领域,文本到图像生成模型在生成与新颖说明相对应的高保真度图像方面展示出了显著的熟练程度。然而,生成描绘所选择说明的任意图像的能力具有有限的应用。最近研究的进展扩展了这些文本到图像模型,利用它们解决了更广泛应用的任务,如图像修复、图像编辑、风格转移,甚至是根据文本和图像生成3D模型。其中,具有许多应用的任务之一是个性化图像生成的问题。

个性化图像生成(也称为以主题驱动的生成)是在各种用户指定的情景中生成特定个人对象图像的能力。例如,一个人可能想象自己的宠物穿上牛仔靴子的样子。除了这种个人化的可视化实验,这个能力还具有多种应用,从个性化叙事到交互式设计都可以使用。最近的文本到图像生成模型在生成遵循输入提示的图像方面取得了令人难以置信的成功。然而,使用词语来描述所需概念的要求对生成概念的外观控制能力有限。

简介

在本研究中,我们通过提出一种方法,在现有的文本到图像扩散模型中实现个性化能力,以解决这个缺点。我们提出了一种新颖的架构(BootPIG),允许用户提供所需概念的参考图像,以引导生成图像中概念的外观。所提出的BootPIG架构对预训练的文本到图像扩散模型进行了最小修改,并利用一个独立的UNet模型来引导生成的外观。我们引入了一种训练过程,通过使用预训练的文本到图像模型、LLM聊天代理和图像分割模型生成的数据,使得我们能够在BootPIG架构中引导个性化能力。与需要数天预训练的现有方法相比,BootPIG架构只需要大约1小时即可训练。在DreamBooth数据集上的实验证明,BootPIG在保持与参考对象外观的一致性和与文本提示的一致性方面优于现有的零样本方法,同时与测试时间微调方法相当。通过用户研究,我们验证了与现有方法相比,BootPIG生成的偏好,无论在保持参考对象外观的忠实性方面还是与文本提示的一致性方面。

方法与模型

我们的方法可以在现有的潜在扩散模型中实现个性化图像生成能力。给定一个描述对象的标题和一组参考图像,我们的目标是生成一张遵循描述的图像,并确保对象的外观与参考图像相匹配。为了实现这一目标,我们引入了一种新的架构(BootPIG),该架构建立在现有的文本到图像生成的扩散模型之上。

BootPIG架构的关键思想是将参考对象的外观注入到预训练的文本条件图像扩散模型的特征中,从而生成的图像模仿参考对象。在本工作中,我们使用 StableDiffusion 作为我们的预训练文本到图像扩散模型。Stable Diffusion 是一种使用 U-Net 架构的潜在扩散模型,该架构由 Transformer和 Residual块组成。我们提出的 BootPIG架构修改了 Transformer 块中的自注意力层处理的信息,以控制生成对象的外观。设 Stable Diffusion U-Net 模型为 Uθ(x, c, t),其中 xt 是带噪输入潜变量,c 是输入的文本提示,t 是扩散过程中的时间步。

1

注入参考特征

接收潜在特征 f ∈ Rn×d 的自注意力(SA) 层执行以下操作:

其 中q, k, v是 称 为 查 询 (query)、 键 (key) 和 值(value)函数的线性映射,具有参数Wq, Wk, Wv ∈Rd×d′,它们将特征映射到所选维度d′。Wo ∈ Rd′xd将输出投影回原始维度d。我们提出用一种称为参考自注意力(RSA)的操作来替代所有的自注意力(SA)层,该操作允许我们注入参考特征。RSA操作符接受潜在特征f ∈ Rn×d和相同维度的参考特征fref ∈ Rnref×d作为输入,并执行以下操作:

其 中[:]表 示 沿 第 一 维 度 的 连 接。直 观 上,RSA运 算 符 促 进 了 参 考 特 征 的 注 入, 使 得 扩散 模 型 能 够 在 计 算 输 出 潜 在 特 征 时 对 它 们 进行 “注 意”。我 们 将 这 个 新 的U-Net称 为 基 本UNet, 记 为URSAθ(x, c, t, {f(1)ref , f(2)ref , …, f(L)ref }), 其 中 包含L个RSA层。为 简 单 起 见, 我 们 使 用 符 号Fref表示L个参考特征的集合。注意,RSA运算符不引入任何新的参数,而是重用权重参数Wo, Wq, Wk, Wv。

2

提取参考特征

给定一个参考图像 Iref,我们需要提取适合传递给每个 RSA 层的特征 fref。我们提出使用一个独立的 U-Net Uϕ(x, c, t),称之为参考 U-Net,以与基础 U-Net 相同的架构初始化,并使用相同的参数(ϕ = θ) 提取特征。对于给定的 t,我们对参考图像 Iref进行前向扩散过程,计算含噪参考潜变量 x′reft。我们将 x′reft 与文本提示一起作为输入,并在 L− SA 层之前提取特征 Fref。这确保了提取的参考特征具有适当的维度并且与 RSA 层的权重兼容。

3

Training

BootPIG架构使我们能够将参考图像的特征传递到RSA 层。然而,由于原始扩散模型 Uθ 没有与 RSA 层一起训练,我们观察到生成的图像被破坏了(见补充材料),并且没有正确地遵循输入提示。为了纠正这个问题,我们建议微调参考 U-Net ϕ 的参数,以提取更好的参考特征,并微调 RSA 层的参数(Wo, Wq, Wk, Wv)以更好地利用参考特征。

给定一个包含参考图像、文本提示和根据文本提示准确描绘参考对象的目标图像的三元组数据集,我们使用与原始潜扩散模型相同的目标来微调 BootPIG架构。参考 U-Net 将输入与参考图像对应的有噪声的 VAE 潜变量(根据时间步长 t 进行噪声处理)作为输入,以及时间步长 t 和目标说明。基本 UNet 接收与目标图像对应的有噪声的 VAE 潜变量(同样有噪声处理)、时间步长 t、目标说明和从参考 U-Net收集到的参考特征作为输入。参考 U-Net 和 RSA 层的参数将被更新以准确估计输入潜变量中的噪声。为了保留基本 U-Net 的遵循提示能力,在训练过程中我们以概率 0.15 随机丢弃参考图像的特征,从而将基本 U-Net 模型恢复为基于自注意力机制的架构。

4

Bootstrapping Training Data

收集一大批用于优化BootPIG体系结构的经过精选的训练数据是一项昂贵、甚至可能不可行的过程。这将涉及收集成对的参考图像和目标图像,描绘相同物体实例在不同环境下的情况。相反,我们提出了一种利用现有预训练计算机视觉和自然语言处理模型能力的合成数据生成流程。

我们提供了数据生成流程的概览。首先,我们利用ChatGPT,这是一种最先进的对话机器人,为潜在的目标图像生成描述。对于每个描述,我们使用Stable Diffusion生成一幅图像。然后,我们使用Segment Anything Model (SAM),这是一个最先进的分割模型,提取与描述中主要物体相对应的前景掩模。我们将Stable Diffusion生成的图像作为目标图像,将前景物体粘贴到白色背景上作为参考图像,并将ChatGPT生成的描述作为文本提示。虽然参考图像并没有在完全不同的环境中描绘物体,但我们经验证实,这样的合成数据足以学习个性化能力。

实验与结果

我们使用数据集合成流程,生成了200000组(参考图像、目标图像、目标标题)三元组作为训练数据。我们使用了公开可用的Stable Diffusion版本2.1中的VAE和文本编码器权重。基础U-Net和参考U-Net都是从预训练的Stable Diffusion U-Net权重进行初始化的。训练过程中, 我们通过随机调整前景图像的大小、 水平翻转和将前景图像移动到随机位置来增强参考图像。

我们在DreamBooth数据集上评估了我们的方法。该数据集包含30个个性化主题,每个主题有多个3-6个参考图像和25个新颖的提示。除非另有说明,我们对每个生成过程使用所有可用的参考图像。我们使用DreamBooth作者介绍的评估指标CLIP-T、CLIPI和DINO评估我们的方法在该数据集上的零-shot效果。CLIP-T用于衡量生成图像与文本提示之间的对齐程度。CLIP-I和DINO用于评估生成图像与参考对象的外观之间的一致性。

定量比较

我们展示了模型在DreamBooth数据集上与现有方法的主要定量比较。在提示保真度(+1.1CLIP-T) 和 主 题 保 真 度 方 面 (+0.8 CLIP-I, +2.4DINO),BootPIG胜过了所有现有的零样本方法。与测试时微调的方法相比,BootPIG在提示保真度方面表现出最先进的性能(+0.6 CLIP-T),同时在主题保真度方面表现相当。

定性对比结果

Custom Diffusion(复现)、ViCo(复现)和BootPIG的额外视觉比较

!!论文中文版pdf请联系小助手加入论文交流群!!

小助手微信

CV交流群

多模态交流群

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具