AI新工具
banner

AutoStudio


介绍:

AutoStudio提供无需训练的多智能体框架,实现多回合交互式一致性图像生成。









AutoStudio

AutoStudio是一种面向多轮交互图像生成任务的新型框架,旨在在用户多次互动过程中生成连贯且一致的图像序列。这个挑战性任务要求模型能够在用户频繁切换生成主题时,维持主题的一致性并生成多样化的图像。

AutoStudio不需要进行额外的训练,由多个基于大型语言模型(LLMs)的智能体组成来处理交互,外加一个基于稳定扩散(SD)模型的智能体用于生成高质量图像。具体来说,AutoStudio包含以下四个关键组件:

  1. 主题管理器:负责解释交互对话并管理每个主题的上下文。
  2. 布局生成器:生成精细的边界框以控制主题的位置。
  3. 监督者:提供布局改进建议。
  4. 绘图器:完成图像的生成。

此外,为了更好地保留小主题,AutoStudio引入了平行UNet替代原本的UNet,采用了两平行交叉注意力模块,以利用主题相关特征,还引入了一种主题初始化的生成方法。

使用场景:

  1. 多轮交互图像生成:适用于在多个回合中与用户互动,并生成保持一致性的主题图像序列。
  2. 多主题图像生成:能够在同一图像序列中生成多个主题,并确保每个主题在各回合间的一致性和连贯性。
  3. 高级图像制作工具:适用于需要通过复杂交互生成高质量、多样化且一致图像的场景,譬如广告创作、艺术设计、影视制作等。

实验结果表明,AutoStudio在公共CMIGBench基准测试和人类评估中表现优异,在多主题一致性方面大幅提升,并且提升了13.65%的弗雷歇特初始距离和2.83%的字符间相似性,达到了当前最先进的水平。

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621