重新定义检索在RAG系统中的作用作者：知识图谱AI大本营来源：知识图谱AI大本营论文的地址：https://arxiv.org/abs/2401.14887 摘要：检索增强生成（RAG）系统相较于传统的大型语言模型（LLMs）实现了显著的进步。RAG系统通过引入信息检索（I

重新定义检索在RAG系统中的作用

By AiBard123
April 2, 2024 - 2 min read

作者：知识图谱AI大本营来源：知识图谱AI大本营

论文的地址：https://arxiv.org/abs/2401.14887

摘要：检索增强生成（RAG）系统相较于传统的大型语言模型（LLMs）实现了显著的进步。RAG系统通过引入信息检索（IR）阶段所获取的外部数据来提升其生成能力，从而克服了仅依赖预训练知识及有限上下文窗口的标准LLMs的局限性。目前该领域的大部分研究主要集中在RAG系统中LLMs的生成方面。本研究填补这一空白，深入且批判性地分析了IR组件对RAG系统的影响。本文探讨了为实现有效的RAG提示构建，一个检索器应具备哪些特性，尤其关注应检索何种类型的文档。我们评估了诸如文档与提示的相关性、它们在上下文中的位置以及包含的文档数量等各项因素。我们的发现揭示了诸多洞见，其中意外的是，包含无关文档竟能使性能在准确性上提高超过30%，这与我们最初认为质量下降的假设相矛盾。这些结果强调了有必要开发专门策略以整合检索与语言生成模型，从而为这一领域奠定新的研究基础。

研究动机：

尽管LLMs在文本生成、复杂问答以及信息检索任务上展现了前所未有的能力，但它们处理大范围上下文的能力受限，导致过度依赖预训练知识，不仅限制了对书籍或长篇对话等扩展语篇的有效管理，还增加了产生事实错误或无意义信息（即幻觉）的可能性。为了提高LLMs生成响应的准确性，出现了RAG系统这一有前景的解决方案。RAG系统通过提供模型访问外部信息的途径，而非仅依赖预训练阶段注入的知识（可能有限或过时），旨在提高事实准确性。

理论基础与模型架构：

RAG系统的核心由两个基本组件构成：检索器和生成器。检索器负责为生成模块提供外部信息以丰富输入，而生成器利用LLMs的力量生成连贯且与上下文相关的文本。RAG系统通过融入IR组件，在响应生成过程中动态获取相关外部信息，从而显著扩大模型可访问数据的范围，延长其初始输入之外的上下文窗口

研究方法

本研究针对如何优化RAG系统的提示构建，重点考察了检索器所需具备的特性，尤其是应检索何种类型文档。通过评估文档与提示的相关性、位置以及包含的文档数量等因素，深入分析IR组件对RAG框架的影响。

自然问题数据集

使用自然问题（NQ）数据集作为实验平台。该数据集源于谷歌搜索数据，大规模收集了现实世界的查询及其对应含有答案的维基百科页面。设计初衷是为了推动自然语言理解和开放域问答研究，提供了丰富的实际问题和语境相关的答案资源。实验特别选用NQ-open子集，它与NQ数据集的主要区别在于取消了将答案链接至特定维基百科段落的限制，更贴近真实环境中开放式的问答场景。

文档类别与表示

实验中，文档被划分为四类：金标文档（gold）、相关文档（relevant）、相关但不含答案文档（related）和无关文档（irrelevant）。其中，金标文档是指直接包含正确答案的文档；相关文档虽不包含答案但与查询主题密切相关；相关但不含答案文档则与查询相关但故意不包含正确答案，用于模拟检索器训练阶段遇到的“负样本”；无关文档与查询完全无关，用于评估模型处理完全不相关信息的能力。

文档检索

遵循典型的RAG设置，实验采用两步法进行文档检索。第一步，使用基于BERT的密集型检索器Contriever作为默认检索工具。Contriever通过无监督方式，利用对比损失函数进行训练。为了提高在约2100万份文档组成的语料库中进行相似度搜索的效率，还应用了FAISS IndexFlatIP索引系统。每个文档和查询的嵌入向量通过平均模型最后一层隐藏状态获得。

LLM输入

对于给定查询，检索器根据某种相似度度量从语料库中选择前k篇最相关的文档。这些文档连同任务指令和查询一起，构成了LLM生成响应的输入。NQ-open数据集中的查询答案限定为不超过5个词元，因此LLM的任务是从提供的文档中提取不超过5个词元的响应。模板化的提示如图1所示，以斜体显示任务指令，之后是包含所选文档的上下文，查询紧跟在文档之后。这种安排遵循了文献[21]所述的方法论原则。

实验设定

实验设计了多种文档组合情境，包括只包含金标文档、包含相关但不含答案文档、包含无关文档以及这些文档的不同数量和排列顺序。例如，[I, a, ⋆, Q]表示输入中首先包含无关文档，接着是相关但不含答案文档，然后是金标文档，最后是查询。通过在各种设置下运行LLM并记录其生成的准确性，研究不同文档组合对生成性能的影响。

评估指标

实验使用准确率作为主要评估指标，衡量LLM生成的响应是否正确匹配金标答案。此外，通过注意力分布热图直观展示LLM在生成答案过程中对不同文档的关注程度，有助于理解模型在不同文档组合下如何分配注意力资源。

实验结果

文档组合对生成性能的影响

实验结果显示，不同文档组合对LLM生成性能的影响显著。具体来说，包含无关文档的输入情境（如[I, ⋆, Q]）通常会提高LLM的准确性，这一发现与直觉相悖，因为人们通常认为无关信息会降低模型性能。然而，实验中发现，无关文档的存在有时可以提升准确率高达35%。这一现象在各种文档数量和位置配置下均得到验证，表明无关文档对LLM的生成过程具有潜在的积极影响。

模型对噪声的敏感性差异

对比不同模型在引入噪声（无关文档）后的表现，发现并非所有模型都遵循相同的性能提升模式。例如，Falcon模型在加入随机文档时，其性能提升并不符合其他模型所表现出的规律。当为Falcon提供检索到的文档而非金标文档时，同样观察到添加无关文档能提升其性能，这与在理想（oracle）设置下Falcon对噪声相对稳健（即性能仅轻微下降）的现象形成对比。这一新发现进一步验证了实验数据，即在非理想条件下，所有测试模型在引入噪声后均有性能提升。

检索器权衡

在RAG系统中，理想的检索器应具备何种特性以优化提示构建，是本论文研究的核心问题。考虑到LLMs受限于有限的上下文大小，只能处理有限数量的文档，通常认为检索器应提供与查询语义接近的文档。然而，实验结果揭示了一个关键平衡：相关文档与无关文档之间的相互作用对LLM的准确性有重要影响。随机文档看似对LLM准确性产生了积极影响，但为了生成准确答案，上下文中必须包含一定程度的相关信息。另一方面，如果只有相关文档而没有无关文档，可能会导致模型过于聚焦于局部信息，忽视全局背景或潜在的辅助信息，从而影响生成效果。

噪声效应的复杂性

尽管无关文档的加入总体上提高了LLM的准确性，但其作用机制尚不明晰。实验数据表明，无关文档数量与准确率之间存在非线性关系，且这种关系因模型和查询类型而异。例如，某些模型在加入特定数量的无关文档时达到最高准确率，之后再增加无关文档反而会导致性能下降。此外，无关文档的位置对生成性能也有影响，不同的排列顺序可能导致截然不同的结果。这暗示了噪声对LLM的影响具有复杂性和条件依赖性，不能简单地通过增加无关文档数量来保证性能提升。

模型特异性

实验还揭示了不同模型对噪声的反应具有特异性。例如，Falcon和Llama2模型在某些情况下（如添加8个无关文档）在“中间”设置下的准确率甚至超过了“远”设置，未表现出“迷失在中间”的现象。这一现象挑战了关于无关文档数量与性能之间关系的传统认识，提示可能存在特定模型或特定查询类型对噪声具有独特适应性的现象。

结论

综上所述，实验结果表明，无关文档的引入对RAG系统中的LLM生成性能有着复杂且非直观的影响。这一影响既包括正面的提升作用，也包括与模型特异性、文档数量和位置相关的条件性效应。这些发现揭示了RAG系统中检索组件对生成性能的重要性，以及在设计和优化检索策略时需要考虑的复杂权衡。未来研究需要进一步探索无关文档如何以及为何能提高LLM性能，识别其有益特性和内在机制，并据此开发新一代更适合与生成组件交互的信息检索技术。

局限性

当前研究在揭示噪声（无关文档）对RAG系统性能影响方面取得重要发现，但也存在以下局限性：

1.因果关系解释不足：尽管实验证明无关文档的加入可以提高LLM的准确性，但未能深入剖析这种现象背后的因果机制。具体而言，未能明确回答为何LLM在存在噪声的情况下表现得更好，以及哪些特征对这种有效性有贡献。

2.模型特异性理解不充分：虽然注意到不同模型对噪声的反应具有特异性，但对这些差异的具体原因及其与模型结构、训练方式或参数调整的关系缺乏深入分析。

3.非线性关系复杂性未充分探索：实验揭示了无关文档数量与准确率之间的非线性关系，但未详细探究这种复杂关系的性质和规律，以及如何根据不同模型或查询类型预测最优的无关文档数量。

4.文档位置效应待深化：虽然指出文档位置对生成性能有影响，但未对这种影响进行量化分析或提出模型来描述和预测不同位置下文档对生成结果的具体影响。

未来改进方向****

可以从以下几个方面展开，以深化对噪声在RAG系统中作用的理解，并推动相关技术的发展：

1.机制解析与因果推断：开展理论研究和深度分析，揭示无关文档如何通过影响LLM的内部计算过程来提高生成准确性。这可能涉及对注意力机制、记忆整合以及模型决策过程的细致剖析。通过因果推理方法，识别哪些无关文档的属性或特征对性能提升起关键作用，为设计针对性的噪声注入策略提供依据。

2.模型特异性研究：对不同模型对噪声反应的特异性进行深入探究，包括比较不同模型架构、训练策略以及参数配置对噪声敏感性的差异，寻找模型对噪声反应模式的共性与差异性规律，以指导模型选择和优化。

3.非线性关系建模：开发数学模型或机器学习算法，精确刻画无关文档数量与准确率之间的非线性关系，预测在特定模型和查询条件下，添加多少无关文档能获得最佳性能。这将有助于制定更为精细的文档选择策略，使RAG系统能动态适应不同的信息需求和模型特性。

4.文档位置效应模型化：研究并建立文档位置对生成性能影响的定量模型，分析文档在上下文中的位置如何改变其对LLM生成决策的影响权重，进而指导文档排序和上下文组织，以最大化噪声的有益效应。

5.新型检索技术开发：根据对噪声作用机制的深入理解，设计并实现新一代信息检索技术，使其能更有效地与生成组件协同工作，既能充分利用无关文档带来的潜在益处，又能避免引入过多噪声导致的负面影响，最终提升RAG系统的整体性能和可靠性。

更多AI工具，参考Github-AiBard123，国内AiBard123

可关注我们的公众号：每天AI新工具