AI新工具
banner

Phased Consistency Model


介绍:

Phased Consistency Model (PCM) 是一种加速大规模扩散模型的文本条件图像生成策略。









Phased Consistency Model

Phased Consistency Model(PCM)是一种新兴的采样加速策略,专门用于在大型扩散模型中实现快速的文本条件图像生成。PCM作为一致性模型(CM)的一种高级扩展,旨在解决之前在低步数(1~4步)范围内的一些生成质量问题。

一致性模型(CM)是由杨松等人提出的一类生成模型,能够在无条件和类条件设置下用很少的步骤(通常为2步)生成高保真图像。此前工作的潜在一致性模型(LCM)试图在文本条件生成中复制一致性模型的效果,但在低步数下的结果不理想,常常生成模糊的图像。

PCM针对LCM存在的以下三个主要问题进行改进:

  1. LCM在选择分类指导函数(CFG)时缺乏灵活性,对负面提示不敏感。
  2. LCM在不同推理步数下无法生成一致的结果,当步数较大时结果模糊(由于随机采样误差),步数较小时生成能力不足。
  3. LCM在低步数范围内生成的结果质量较差。

为了更好地解决这些问题,PCM采用了分段一致性的方法,将ODE轨迹分为多个子轨迹,使得学习和采样更加稳定,并且易于训练。

PCM的使用场景:

PCM通过改进文本条件图像生成的效果和速度,具有广泛的应用场景,包括但不限于:

  1. 快速图像生成:在需要快速生成高质量图像的情况下,PCM非常适合,因为它能够在1、2、4、8、16步内生成高质量的图像。
  2. 高保真图像生成:PCM能够生成细节丰富的高保真图像,适用于需要高画质输出的应用,如广告设计、艺术创作等。
  3. 文本条件生成:PCM在文本条件图像生成领域表现尤为突出,适用于自然语言处理与计算机视觉结合的应用,如智能海报生成、自动图像描述等。

PCM提供了一个强大的工具来改善生成模型在有限步数内的图像质量和生成速度,对于需要高效、高质量生成图像的应用提供了新的解决方案。

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621