AI 文摘

更灵活、更多样、更美观!TextDiffuser-2有效解决文本渲染难题


  • By AiBard123
  • December 18, 2023 - 2 min read



作者: PaperWeekly 来源: PaperWeekly

近几年来,基于 Diffusion 的图像生成模型迅猛发展,这些模型在图像生成的细节层面上取得了极为逼真的效果。尽管如此,现有模型仍普遍面临着将文字有效融入图像的挑战。事实上,能够生成包含文字的图像具有极广阔的实际应用潜力,例如在 Logo 设计和海报制作等领域。经过调研,我们发现学术界已经有若干方法尝试应对这一难题,然而,这些现行方法仍存在一些不容忽视的局限性:

  1. 缺乏自动化和灵活性:目前流行的一些方法,如 GlyphControl,并不能直接根据用户的文字提示(prompt)自动生成最终所需的文本图像。用户在使用这些方法时,必须先手动设计文本布局,这一步骤增加了使用门槛。此外,TextDiffuser-1 模型要求用户明确指出需要渲染的文本内容,这一需求使得操作过程显得复杂且繁琐;

  2. 布局生成能力受限:现有技术如 TextDiffuser-1 通过采用 Layout Transformer 预测文本布局,但受制于模型本身的限制,其生成的布局往往杂乱无章,这直接影响了图像的视觉效果和美观程度;

  3. 文本样式多样性不足:TextDiffuser-1 采用了较为严格的字符级监督,这确实提升了文本渲染的精确度。然而我们注意到,这种强监督会在一定程度上限制文本样式的多样性。以 TextDiffuser-1 为例,其生成手写文本样式的能力较弱;

  4. 缺乏开源代码:一些现有的方法由于没有公布对应的代码,对后续研究者进行相关工作的开展造成阻碍。

鉴于此,我们提出了 TextDiffuser-2,旨在充分释放语言模型在视觉文本渲染方面的潜能。

####论文标题:

TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering

####项目主页:

https://jingyechen.github.io/textdiffuser2/

####代码链接:

https://github.com/microsoft/unilm/tree/master/textdiffuser-2

####在线Demo:

https://huggingface.co/spaces/JingyeChen22/TextDiffuser-2

三分钟读论文

Powered by AI © PaperWeekly

我们实施了以下两点关键改进:

1. 微调大型语言模型用于布局生成: 现有研究成果显示,大型语言模型内含对视觉布局有一定理解的能力,足以处理布局生成任务。基于这一发现,我们尝试使用图像描述-文本布局数据集对大语言模型 vicuna-1.5-7B 模型进行微调。实验结果表明,经过有限数据集的微调后,该语言模型能够生成美观的布局。

2. 利用语言模型编码布局信息: 我们采用了 Stable Diffusion 模型中现有的语言模型编码布局信息。在这个过程中,我们引入了额外的 token,比如坐标 token 和字符 token。通过这种编码机制,我们发现模型能够有效学习在特定位置绘制相应的文本内容。

在对文本生成图像技术(Text-to-image)的能力比较中,我们的实验成果展现了 TextDiffuser-2 的卓越性能。具体来说,TextDiffuser-2 不仅能够准确地渲染文本内容,还能确保文本与其背景区域之间的协调一致性。

值得一提的是,尽管 DALLE-3 在应对简单的文字提示时能够正确渲染文本,但面对更为复杂的提示时,其表现仍存在错误。而 TextDiffuser 虽然在文本渲染的准确性上表现不错,我们却注意到其生成的布局往往显得较为混乱,影响图像的美观度。

我们深入分析了模型生成特定风格字体的能力,例如手写体和艺术体等。通过对生成结果的可视化对比分析,我们观察到 TextDiffuser-2 在这一领域的表现最为出色。

在 Text Inpainting 任务上,我们将 TextDiffuser-2 与 TextDiffuser 进行了细致的比较。根据我们的可视化结果,TextDiffuser-2 在这一任务上展现了明显的优势。与 TextDiffuser 相比,TextDiffuser-2 生成的文本与背景的搭配更为协调,文本的风格与周围环境更加吻合。这种和谐一致性在提升整体图像质感和美观度方面起到了关键作用。

在定量实验中,TextDiffuser-2 在大多数指标上具有优异的性能。

值得一提的是,我们采用 GPT-4V 进行了用户评测。通过对话我们发现,GPT-4V 具有优异的识图识字能力,并且总结的理由也较为合理。

最后我们公布了代码和 Demo,欢迎感兴趣的伙伴进行尝试 TextDiffuser-2!

更多阅读

#投 稿 通 道#

** 让你的文字被更多人看到**

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读 ,也可以是学术热点剖析科研心得竞赛经验讲解 等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品 ,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬 ,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:[email protected]

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02 )快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在**「知乎」** 也能找到我们了

进入知乎首页搜索**「PaperWeekly」**

点击**「关注」** 订阅我们的专栏吧

·

·

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具