值得一看的文档理解前沿方案及版式分析开源数据：三种模式、九大数据集作者：老刘说NLP 来源：老刘说NLP 今天是2024年3月31日，星期日，北京，天气晴，今天是3月份最后一天。我们再来看看一些有趣的话题。文档理解是当前大模型落地B断场景的重点，也是当前RAG等大模型问答方案的前置步骤。我们在前面多个文章中已

值得一看的文档理解前沿方案及版式分析开源数据：三种模式、九大数据集

By AiBard123
April 2, 2024 - 2 min read

作者：老刘说NLP 来源：老刘说NLP

今天是2024年3月31日，星期日，北京，天气晴，今天是3月份最后一天。

我们再来看看一些有趣的话题。

文档理解是当前大模型落地B断场景的重点，也是当前RAG等大模型问答方案的前置步骤。

我们在前面多个文章中已经介绍过文档智能的一些工作，现在我们进一步进行整理，将文档理解的代表工作分成基于传统OCR的文档理解方案、基于小模型的OCR-free微调方案以及基于大模型的OCR-FREE微调方案三种。

而版式分析是其中一个首要解决的问题，其负责将文档的布局进行分析，这有利于让文档分而治之。

因此，本文主要对当前文档智能的一些相关方案及数据集进行介绍，供大家一起参考。

一、基于传统OCR的文档理解方案

基于传统OCR的文档理解方案使用OCR工具来获取文本和边界框信息，然后依靠模型来集成文本、布局和视觉信息。

当前，这类方案的主要差异在于，设计不同的预训练任务，以增强视觉和文本输入之间的跨模态对齐。

我们来看看几个具有代表性的工作：

1、StructTexT

《Structext: Structured text understanding with multimodal transformers》（https://arxiv.org/pdf/2108.02923.pdf）在预训练任务的设计中关注图像内的细粒度语义信息和全局布局信息。

2、ERNIElayout

《Ernie-layout: Layout knowledge enhanced pre-training for visually-rich document understanding》(https://arxiv.org/pdf/2210.06155.pdf)基于布局知识增强技术，提出了两个自监督预训练任务：阅读顺序预测和细粒度图像文本匹配。

3、LayoutLM系列

通过集成预训练的文本、布局和视觉特征，并引入统一的模型架构和预训练目标，不断改进。这增强了模型在各种文档理解任务中的性能，并简化了整体设计，包括三个版本：

《Layoutlmv3: Pre-training for document AI with unified text and image masking》（https://arxiv.org/pdf/2204.08387.pdf）

《Layoutlm: Pre-training of text and layout for document image understanding》（https://arxiv.org/pdf/1912.13318.pdf）

《Layoutlmv2: Multi-modal pre-training for visually-rich document understanding》（https://arxiv.org/pdf/2012.14740.pdf）

4、UDOP

《Unifying vision, text, and layout for universal document processing》（https://arxiv.org/pdf/2212.02623.pdf）通过VTLTrans-former和统一的生成预训练任务统一视觉、文本和布局特征。

5、Wukong-reader

《Wukong-reader: Multi-modal pre-training for fine-grained visual document under- standing》（https://arxiv.org/pdf/2212.09621.pdf）利用文本行区域对比学习和专门制作的预训练任务来提取细粒度的文本行信息。

6、DocFormerv2

《Docformerv2: Local features for document understanding》（https://arxiv.org/pdf/2306.01733.pdf）采用一种不对称的预训练方法和简化的可视化分支。

7、DocLLM

《Docllm: A layout-aware generative language model for multimodal document understanding》（https://arxiv.org/pdf/2401.00908.pdf）专门关注位置信息，以纳入空间布局结构，使用分解的注意力机制在文本和空间模态之间建立交叉对齐。

二、基于小模型的OCR-free微调方案

虽然已经取得了进步，但OCR模型驱动的方法依赖于从外部系统中提取文本，这需要增加计算资源并延长处理时间。此外，这些模型可能会继承OCR的不准确性，给文档理解和分析任务带来挑战。

因此，后续出现了一些微调的方案，主要有一些几个方案：

1、Donut

《Ocr-free document understanding transformer》（https://arxiv.org/pdf/2111.15664.pdf）提出了一种基于无OCR的端到端训练方法。

2、Dessurt

《End-to-end document recognition and understanding with dessurt》（https://arxiv.org/pdf/2203.16618.pdf）基于类似于Donut的架构，结合了双向交叉注意力，并采用了不同的预训练方法。

3、Pix2Struct

《Pix2struct: Screenshot parsing as pretraining for visual language understanding》（https://arxiv.org/pdf/2210.03347.pdf）通过学习将网页的MASK截图解析为简化的HTML进行预训练，引入了可变分辨率的输入表示以及更灵活的语言和视觉输入集成方式。

4、StructTexTv2

《Structextv2: Masked visual-textual predic- tion for document image pre-training》（https://arxiv.org/pdf/2303.00289.pdf）引入了自监督预训练框架，采用文本区域级文档图像掩蔽来学习端到端的视觉文本表示。

三、基于大模型的OCR-FREE微调方案

尽管基于小模型的OCR-free微调方案不需要OCR工具限制，但仍需要针对特定任务进行微调。

因此，在当前快速发展的多模式大型语言模型（MLLMs）时代，一些模型在视觉文本理解数据集上进行显式训练，并根据指令进行微调。

1、LLaVAR

《Llavar: Enhanced visual instruction tuning for text-rich image understanding》（https://arxiv.org/pdf/2306.17107.pdf）

2、mPLUGDocOwl

《mplug-docowl: Modularized multimodal large language model for document understanding》（https://arxiv.org/pdf/2307.02499.pdf）

3、UniDoc

《Unidoc: A universal large multimodal model for simultaneous text detection, recognition, spotting and understanding》（https://arxiv.org/pdf/2308.11592.pdf），该工作创建指令微调数据集，以增强调整过程并提高对文本丰富图像的理解。

4、UReader

《Ureader: Universal ocr-free visually-situated language understanding with multimodal large language model》（https://arxiv.org/pdf/2310.05126.pdf），该工作设计了一种形状自适应裁剪模块，该模块利用冻结的低分辨率视觉编码器来处理高分辨率图像。

5、DocPedia

《Docpedia: Unleashing the power of large multimodal model in the frequency domain for versatile document understanding》（https://arxiv.org/pdf/2311.11810.pdf），该工作在频域而不是像素空间中处理视觉输入，以处理具有有限视觉标记的更高分辨率图像。

6、Vary

《Vary: Scaling up the vision vocabulary for large vision-language models》（https://arxiv.org/pdf/2312.06109.pdf），该工作通过在大量数据上训练视觉词汇，扩展其分辨率，从而得到较好的效果。

7、TGDoc

TGDoc《Towards improving document understanding: An exploration on text- grounding via mllms》（https://arxiv.org/pdf/2311.13194.pdf）使用文本基础来增强文档理解，这表明文本基础可以提高模型解释文本内容的能力，从而增强其对富含文本信息的图像的理解。

8、TextMonkey

《TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document》(https://arxiv.org/abs/2403.04473)，是monkey的改进版，优化了窗口划分的机制，防止原版monkey中文字被切在不同窗口内的问题，同时增加了一些与位置相关的训练任务缓解幻觉问题。

代码地址：https://github.com/Yuliang-Liu/Monkey，测试地址：http://vlrlab-monkey.xyz:7681

三、现有的一些文档版式分析数据集

当前，文档版式分析已经成为文档分析中的一个重中之重，我们可以根据不同的文档进行版式数据的训练，其中开源的数据成了重中之重，我们可以来看看现有的一些数据集。

1、Publaynet数据集

包含Text、Title、Tale、Figure、List，共5个类别，数据集中包含335,703张训练集、11,245张验证集和11,405张测试集

地址:https://github.com/ibm-aur-nlp/PubLayNet

2、CDLA数据集

包含5000张图像，验证集合中包含1000张图像。总共包含Text, Title, Figure, Figure caption, Table, Table caption, Header, Footer, Reference, Equation共10个类别。

地址:https://github.com/buptlihang/CDLA

3、TableBank数据集

仅包含Table 1个类别，包含Latex（训练集187199张，验证集7265张，测试集5719张）以及Word（训练集73383张，验证集2735张，测试集2281张）两种类别的文档。

地址:https://doc-analysis.github.io/tablebank-page/index.html

4、D4LA数据集

包含12类文档、DocTitle、ListText、LetterHead、Question、RegionList、TableName、FigureName、Footer、Number、ParaTitle、RegionTitle、LetterDear、OtherText、Abstract、Table、Equation、PageHeader、Catalog、ParaText、Date、LetterSign、RegionKV、Author、Figure、Reference、PageFooter、PageNumber共27种类型

地址:https://modelscope.cn/datasets/iic/D4LA/summary,https://arxiv.org/pdf/2308.14978.pdf

5、DocLayNet文档布局分割数据集

包括80863个文档、Caption、Footnote、Formula、List-item、Page-footer、Page-header、Picture、Section-header、Table、Text、Title共11个类别

地址:https://github.com/DS4SD/DocLayNet，https://arxiv.org/pdf/2206.01062.pdf

6、M6Doc数据集

共包含9,080个样本，涉及科学文章、教科书、试卷、杂志、报纸、笔记和书籍，涉及三种格式PDF、拍照文档和扫描文档。

地址:https://github.com/HCIILAB/M6Doc,https://arxiv.org/pdf/2305.08719.pdf

7、cTDaR2019_cTDaR数据集

用于表格检测(TRACKA)和表格识别(TRACKB)，只有表格一个标签。

地址:https://cndplab-founder.github.io/cTDaR2019/

8、IIIT-AR-13K数据

基于公开年报创建，共13k，涉及Table、Figure、Natural Image、Logo、Signature五个标签

地址:http://cvit.iiit.ac.in/usodi/iiitar13k.php

9、DocBank数据集

包括500K文档页面，包含12类：Author、Caption、Date、Equation、Figure、Footer、List、Paragraph、Reference、Section、Table、Title标签。

地址:https://github.com/doc-analysis/DocBank

总结

本文主要对当前文档智能的一些相关方案及数据集进行了介绍，文档理解是当前大模型落地B端场景的重点，也是当前RAG等大模型问答方案的前置步骤。

其中涉及到的一些论文细节以及数据，大家感兴趣的可以多关注。

参考文献

1、https://zhuanlan.zhihu.com/p/686423223

关于我们

老刘，刘焕勇，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的，可关注公众号，在后台菜单栏中点击会员社区->会员入群加入。

更多AI工具，参考Github-AiBard123，国内AiBard123

可关注我们的公众号：每天AI新工具