更灵活、更多样、更美观！TextDiffuser-2有效解决文本渲染难题作者： PaperWeekly 来源： PaperWeekly 近几年来，基于 Diffusion 的图像生成模型迅猛发展，这些模型在图像生成的细节层面上取得了极为逼真的效果。尽管如此，现有模型仍普遍面临着将文字有效融入图像的挑战。事实上，能够生成包含文字的图像具有极广阔的实际应用潜力，例如在 Logo 设计和海报制

更灵活、更多样、更美观！TextDiffuser-2有效解决文本渲染难题

By AiBard123
December 18, 2023 - 2 min read

作者： PaperWeekly 来源： PaperWeekly

近几年来，基于 Diffusion 的图像生成模型迅猛发展，这些模型在图像生成的细节层面上取得了极为逼真的效果。尽管如此，现有模型仍普遍面临着将文字有效融入图像的挑战。事实上，能够生成包含文字的图像具有极广阔的实际应用潜力，例如在 Logo 设计和海报制作等领域。经过调研，我们发现学术界已经有若干方法尝试应对这一难题，然而，这些现行方法仍存在一些不容忽视的局限性：

缺乏自动化和灵活性：目前流行的一些方法，如 GlyphControl，并不能直接根据用户的文字提示（prompt）自动生成最终所需的文本图像。用户在使用这些方法时，必须先手动设计文本布局，这一步骤增加了使用门槛。此外，TextDiffuser-1 模型要求用户明确指出需要渲染的文本内容，这一需求使得操作过程显得复杂且繁琐；
布局生成能力受限：现有技术如 TextDiffuser-1 通过采用 Layout Transformer 预测文本布局，但受制于模型本身的限制，其生成的布局往往杂乱无章，这直接影响了图像的视觉效果和美观程度；
文本样式多样性不足：TextDiffuser-1 采用了较为严格的字符级监督，这确实提升了文本渲染的精确度。然而我们注意到，这种强监督会在一定程度上限制文本样式的多样性。以 TextDiffuser-1 为例，其生成手写文本样式的能力较弱；
缺乏开源代码：一些现有的方法由于没有公布对应的代码，对后续研究者进行相关工作的开展造成阻碍。

鉴于此，我们提出了 TextDiffuser-2，旨在充分释放语言模型在视觉文本渲染方面的潜能。

####论文标题：

TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering

####项目主页：

https://jingyechen.github.io/textdiffuser2/

####代码链接：

https://github.com/microsoft/unilm/tree/master/textdiffuser-2

####在线Demo：

https://huggingface.co/spaces/JingyeChen22/TextDiffuser-2

三分钟读论文

我们实施了以下两点关键改进：

1. 微调大型语言模型用于布局生成： 现有研究成果显示，大型语言模型内含对视觉布局有一定理解的能力，足以处理布局生成任务。基于这一发现，我们尝试使用图像描述-文本布局数据集对大语言模型 vicuna-1.5-7B 模型进行微调。实验结果表明，经过有限数据集的微调后，该语言模型能够生成美观的布局。

2. 利用语言模型编码布局信息： 我们采用了 Stable Diffusion 模型中现有的语言模型编码布局信息。在这个过程中，我们引入了额外的 token，比如坐标 token 和字符 token。通过这种编码机制，我们发现模型能够有效学习在特定位置绘制相应的文本内容。

在对文本生成图像技术（Text-to-image）的能力比较中，我们的实验成果展现了 TextDiffuser-2 的卓越性能。具体来说，TextDiffuser-2 不仅能够准确地渲染文本内容，还能确保文本与其背景区域之间的协调一致性。

值得一提的是，尽管 DALLE-3 在应对简单的文字提示时能够正确渲染文本，但面对更为复杂的提示时，其表现仍存在错误。而 TextDiffuser 虽然在文本渲染的准确性上表现不错，我们却注意到其生成的布局往往显得较为混乱，影响图像的美观度。

我们深入分析了模型生成特定风格字体的能力，例如手写体和艺术体等。通过对生成结果的可视化对比分析，我们观察到 TextDiffuser-2 在这一领域的表现最为出色。

在 Text Inpainting 任务上，我们将 TextDiffuser-2 与 TextDiffuser 进行了细致的比较。根据我们的可视化结果，TextDiffuser-2 在这一任务上展现了明显的优势。与 TextDiffuser 相比，TextDiffuser-2 生成的文本与背景的搭配更为协调，文本的风格与周围环境更加吻合。这种和谐一致性在提升整体图像质感和美观度方面起到了关键作用。