AI 文摘

stablediffusion3研究报告发布





作者: NLP前沿 来源: NLP前沿

https://stability.ai/news/stable-diffusion-3-research-paper  

Performance

我们已经将SD3的输出图像与其他各种开放模型进行了比较,包括SDXL, SDXL Turbo, Stable Cascade、Playground v2.5和Pixart-α,以及DALL·E 3、Midjourney v6和Ideogram v1等闭源系统,以评估基于人类反馈的性能。在这些测试中,人类评估者被提供了每个模型的示例输出,并被要求根据模型输出如何紧随给定提示的上下文(“提示跟随”),以及基于提示渲染文本的效果(“排版”),以及哪个图像具有更高的美学质量(“视觉美学”)来选择最佳结果。

根据我们的测试结果,我们发现SD3在所有上述领域中要么与当前最先进的文本到图像生成系统相当,要么表现更好。

在消费者硬件上早期未经优化的推理测试中,我们最大的SD3模型具有8B参数,适合于RTX 4090的24GB VRAM,并且在使用50个采样步骤时,需要34秒生成分辨率为1024x1024的图像。此外,在初始发布期间将有多个SD3的变体,从800m到8B参数模型,以进一步消除硬件障碍。

Architecture Details

对于文本到图像生成,我们的模型必须同时考虑文本和图像两种模态。这就是为什么我们将这种新架构称为MMDiT,这是指其处理多种模态的能力。与之前的Stable Diffusion版本一样,我们使用预训练模型来获得合适的文本和图像表示。具体来说,我们使用三种不同的文本嵌入器 - 两个CLIP模型和T5 - 来编码文本表示,并使用改进的自编码模型来编码图像标记。

SD3架构是在扩展Diffusion Transformer(“DiT”,Peebles & Xie, 2023)的基础上构建的。由于文本和图像嵌入在概念上是非常不同的,我们为两种模态使用了两组独立的权重。如上图所示,这相当于为每种模态都有两个独立的transformer,但是在注意力操作中连接了两种模态的序列,这样两种表示可以在各自的空间中工作,同时也可以考虑另一种模态。

通过使用这种方法,允许信息在图像和文本标记之间流动,以改善生成的输出的整体理解和排版。这种架构也很容易扩展到多种形式,比如视频,正如我们在论文中所讨论的那样。

感谢SD3的改进提示,我们的模型能够创造专注于不同主题和特质的图像,同时在图像风格方面保持高度灵活。

Improving Rectified Flows by Reweighting

SD 3采用了修正流(RF)公式(Liu等,2022年;Albergo&Vanden-Eijnden,2022年;Lipman等,2023年),在训练过程中将数据和噪音连接在一条线性轨迹上。这导致了更直的推断路径,从而允许用更少的步骤进行抽样。此外,我们在训练过程中引入了一种新颖的轨迹抽样计划。这个计划更加重视轨迹的中间部分,因为我们假设这些部分会导致更具挑战性的预测任务。我们通过使用多个数据集、指标和采样器设置进行比较,将我们的方法与其他60种扩散轨迹(如LDM、EDM和ADM)进行了测试。结果表明,虽然以前的RF公式在少步抽样方案中表现出改进的性能,但随着步数的增加,它们的相对性能下降。相反,我们重新加权的RF变体始终改善了性能。

我们使用我们重新加权的修正流公式和MMDiT骨干进行文本到图像合成的规模研究。我们训练模型从15个块、4.5亿参数到38个块、80亿参数,并观察到验证损失随着模型大小和训练步骤的变化而平稳下降(顶部行)。为了测试这是否能够转化为模型输出的有意义改进,我们还评估了自动图像对齐指标(GenEval)以及人类偏好分数(ELO)(底部行)。我们的结果表明,这些指标与验证损失之间存在很强的相关性,表明验证损失是对整体模型性能的强有力预测因子。此外,规模化趋势没有显示出饱和的迹象,这让我们对未来能够持续改进我们模型的性能感到乐观。

Flexible Text Encoders

通过在推理过程中删除内存密集型的4.7B参数T5文本编码器,可以显著减少SD3的内存需求,而只会出现轻微的性能损失。删除这个文本编码器不会影响视觉美感(没有T5的胜率:50%),只会导致略微降低的文本粘附度(胜率46%),如上图中“性能”部分所示。然而,我们建议在使用SD3的全功率生成书面文本时包括T5,因为我们观察到在没有T5的情况下排版生成性能下降更大(胜率38%),如下面的例子所示:

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具