AI 文摘

值得练手的多任务RAG问答竞赛KDD-CRAG:兼看文档图像恢复任务及KG检索策略优劣对比





作者: 老刘说NLP 来源: 老刘说NLP

今天是2024年5月9日,星期四,北京,天气晴。

今天我们来看两个问题,一个是文档理解的前置处理操作文档图像恢复任务,另一个是有哪些RAG竞赛可以练练手。

这些都是实际的一些问题,竞赛也是实际业务场景的任务抽象,终归会有实操意义。

问题1:文档理解的前置处理操作文档图像恢复任务

关注文档智能进展,如下图所示,智能文档处理涉及到文档图像分析与处理、文档解析与识别、版面分析与还原、文档信息抽取与理解、AI安全、知识化&存储检索和管理等多个阶段。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

当前很多场景都是拍照以及扫描场景,这些场景中产出的文档都是歪斜、不清晰等问题,因此对其做预处理还是很需要的,包括去除变形(Dewarping)、去除阴影(Deshadowing)、外观增强(Appearance enhancement)、去模糊(Debluring)和二值化(Binarization)

而目前有个趋势,即统一任务范式进行处理,昨晚看到一个工作,DocRes: 一个通用模型,用于统一文档图像恢复任务:DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks(https://arxiv.org/pdf/2405.04408),针对文档图像恢复任务,使用了一种名为动态任务特定提示(DTSPrompt)的新颖视觉提示方法,以指导DocRes执行各种恢复任务,具体代码:https://github.com/ZZZHANG-jx/DocRes,感兴趣的可以去看看。‍‍‍‍‍‍

想想其实这个做法让CV的操作平民化了,确实处理文档的也许只会prompt和Python,NLP和CV是啥都不知道也可以弄,目前的范式变为构造大量数据集进行拟合。

在完成这部分操作之后,可以再走后续文档常规处理手续,这块在教育领域的产品,例如试卷宝这些,都会用得到。

而此外,我们跳跃到另一个知识图谱检索的问题,有个图,来自https://mp.weixin.qq.com/s/hJOUmkJ5HFavwpg8bBd5xw ,对llamaindex中知识图谱的查询策略,具体实现含义、优势、劣势等做了总结,可以看看。

问题2:有哪些值得练手的RAG问答竞赛

光说不练假把式,看了那么多,学了那么多,实践一下会更好,如果是面临实习或者工作的朋友,也可以体验下比赛的感觉,感兴趣的可以参加练练手。

那么,关于RAG竞赛,我们可以看看值得做的一些比赛。

一个是kdd-cup-2024,地址在https://www.aicrowd.com/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024。‍

该比赛涵盖5个领域和8种问题类型的事实问答竞赛,分成三个任务:

一个是基于web的检索摘要(Web-based Retrieval Summarization),对于每个问题会得到5个网页,其中可能包含回答问题所需的相关信息。

该任务的目标是评估系统识别和概括这些信息以提供准确答案的能力。

一个是知识图谱和web增强 (Knowledge Graph and Web Augmentation)),该任务引入Mock API,用于访问与问题可能相关的结构化数据知识图谱(KG)。使用模拟API,输入从问题中获取的参数,以检索相关数据来获得答案。

该任务目的是评估系统查询结构化数据和整合来自各种来源的信息,生成综合答案的能力。

一个是端到端RAG(End-to-end RAG),为每个问题提供了50个网页和模拟API访问,其中既包含相关信息,又包含噪音。

该任务的目标是评估系统从大规模数据集中选择最重要且相关的数据的能力

参考文献

1、https://arxiv.org/pdf/2405.04408

2、http://discussion.coggle.club/t/topic/147

3、https://mp.weixin.qq.com/s/hJOUmkJ5HFavwpg8bBd5xw

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具