RAG(检索增强生成)会不会消亡呢?
作者: AIGC中文站 来源: AIGC中文站
关于RAG和微调一直有一些讨论,今天和大家分享一篇新的论文 Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge》(《对于相对冷门知识是微调还是RAG》)。
先说论文结论:针对相对冷门知识的问答,RAG的性能始终优于微调(FT),虽然这两种方法都显着改善了问答任务中对利基信息的处理。
微调在最热门知识和最冷门知识问表现不错。但就效率而言,RAG会使模型对冷门的边缘知识更具弹性。微调虽然通常比 RAG 嵌入“更深”的知识,直接整合到了模型中,但与预训练存在类似的局限性,特别针对低频的概念和内容,其时间周期落后,投入的成本也比RAG相对要高。
####简介
大语言模型(LLM)在处理一些低频和冷门知识时,他们的记忆能力受到限制,即使是最大的模型也可能会遇到众所周知的“幻觉”问题和时间退化。因此,当 LLM 打算部署在比较冷门的领域中时,如法律、标书行业,为了确保最佳性能,定制化就变得势在必行。一个常见的例子是在特定行业领域,聊天机器人或问答(QA)系统需要在文本描述有限的情况下准确回答用户关于专有知识图谱或公司内部术语的问题。
检索增强生成 (RAG) 和微调 (FT) 是使 LLM 适应特定领域的两种主要方法。RAG 从文档语料库中检索相关信息,并通过实施情境学习(In Context Learning,ICL)来增强 LLM 的响应生成。相反,微调方法更新模型权重,使其善于回忆特定信息,并在推理过程中增强其记忆能力。在相对冷门的知识背景下,可用的数据有限,作为微调的第一步,数据增强方法用于生成合成训练数据。
这篇论文旨在了解哪种方法和在什么条件下对特定行业的模型更有效,我读完相关论文,发现其在试图回答以下研究问题:
*对于低频冷门的知识,RAG和基于问答合成数据的微调的有效性?
*哪些参数包括合成数据、需要微调的方法、模型大小和检索模型的性能,对下游应用性能有影响?
为了回答这两个问题,论文对RAG和微调方法进行了全面的比较,特别关注相对冷门的知识。该评估探索了各种因素,包括模型大小、检索模型、合成数据生成的质量和微调方法(PEFT 与完全微调)。
其结果表明,微调(FT)始终如一地提高了受欢迎和冷门的实体的性能,在最受欢迎和最冷门的类别中观察到了最实质性的改进。此外,RAG 的性能始终优于微调方法,尤其是在较小模型中与 FT 结合使用时,而在大型模型中则不存在。最后,RAG 和 FT 策略的有效性随着检索和数据增强模型性能的提高而提高。
数据增强 (DA)
微调需要大量的精准数据的准备,我们可以看到上万条问答数据的准备,经常需要10~20人天的工作量,数据的可用性对于专业领域的微调至关重要。数据增强(DA)通过从现有的未标记文本中生成与任务和领域相关的样本来解决数据稀缺问题。问答任务(QA) 任务的一种常见 DA 方法是通过四步管道生成问答对,包括:段落选择、答案提取、问题生成和一致性过滤。Ushio 等人进行了一项实证研究,比较了三种问答生成方法:管道、多任务和端到端(E2E),并表明 E2E 方法在下游任务中优于其他方法。最近,利用 LLM 生成数据在信息检索、QA 和对话创建任务中被证明是有效的。
LLM 受欢迎程度是通过其在预训练数据来衡量的,我们常见的LLM,其数据量越大参数越多。我们可以在ollama等不同的平台,看到其参数量。
比较微调(FT) 与 检索增加生成(RAG)
在本论文中,作者将试图在公平条件下比较 FT 和 RAG 。Mosbach 等人探讨了小样本 FT 与上下文学习对一般领域分类任务的有效性。de Luis Balaguer 等人比较了 FT 和 RAG 在回答长期、农业和地理特定问题时的情况。Ovadia 等人评估了解剖学、天文学、大学生物学和史前史等专业领域的多项选择题的表现。与这些研究相比,论文直接解决了将较冷门的事实知识整合到LLM中的问题,比较了各种检索,数据增强和微调方法。
####评估背景
论文在 QA 任务中评估 LLM,重点关注 POPQA 数据集,其特征是涵盖长尾实体分布的问题。
https://paperswithcode.com/dataset/popqa
PopQA is an open-domain QA dataset with 14k QA pairs
with fine-grained Wikidata entity ID, Wikipedia page views,
and relationship type information.
为了确保 DA(数据增强) 和 RAG 方法之间的公平比较,重点限制在 PopQA 数据集中出现相应实体的维基百科页面。这种设置也反映了现实世界的行业惯例。
####RAG方法
论文使用了多种种检索模型来检索 RAG 方法的相关段落:BM25、Contriever、DPR,同时,在ReRanking时,使用了 BM25 与 DPR 相结合的两阶段重新排名器,所有这些都根据 BEIR 基准实现。
在检索到与问题最相关的内容片段后,试验将使用一个简单的提示词模板,应用零样本提示词进行生成预测:
"Context: . Based on the provided context, answer the question: "
在试验中,作者使了用Small、Base和Large,三种规格的 FlanT5 模进行实验,以检查模型规模对性能的影响。如果回答的结果中包含与提供的正确答案完全匹配的子字符串,则认为预测是准确的。
####微调(FT)方法
在本次试验中,还将使用两种不同的数据增强方法为微调方法生成训练数据。第一种是端到端方法,利用专门为段落级 QA 生成训练的模型,使用 T5 模型,在论文中称为 E2E。此外,还探索了通过提示 LLM 来生成合成训练数据,利用 Zephyr进行 QA 生成。这种方法被称为 Prompt 方法。我们只使用维基百科页面的摘要部分生成QA,以确保公平的比较。
生成 QA 对后,论文继续使用两种方法对 FlanT5 模型进行微调:全参数调优(Full) 和参数高效微调 (PEFT)。在PEFT技术范围内利用 QLoRA。
####试验结果
对微调(FT) 和 检索增强(RAG)进行 比较,在试验结果中,评估了 RAG 和 FT 在四种不同配置中的影响:
-
FT 和 RAG 均未使用 (-FT-RAG)
-
未使用 FT 的 RAG (-FT+RAG)
-
FT 未使用 RAG (+FT-RAG)
-
同时使用 FT 和 RAG (+FT+RAG)。
结果如下表所示。
通常,FT 提高了基础模型的精度,但不能达到 RAG 在基础模型上的有效性。通过集成 FT 和 RAG 来实现最佳性能。
下图展示了,针对Flan5 Small模型,微调虽然微调可以提高不同受欢迎程度内容QA的准确度,特别是在热门和最冷门的内容。
外部参数对RAG和FT的影响
本次试验中,深入研究了影响模型专业化处理比较冷门的知识的其他因素。正在审查的一个关键方面是全调优与PEFT的效果。下表展示,与全 FT 相比,PEFT +FT-RAG 的增益较小,但它显着提高了 +FT+RAG 设置的精度。这表明 PEFT 使 LLM 能够根据提供的提示保持其推理能力。
####试验结论
在试验中重点以较冷门的知识,评估 RAG 与 FT 的有效性。结果表明,FT 为所有LLM带来了持续的性能改进,在最受欢迎和最冷门的类别中取得了最显着的收益。同时,论文发现 RAG 是一种更有效的策略,尤其是在与微调结合使用时。然而,在较大的模型中,这种优势会降低。此外,论文观察到 RAG 和 FT 策略的成功率随着检索和数据增强模型性能的增强而提高。由于合成数据质量的至关重要性,未来的工作将侧重于开发有效的数据创建方法。
更多AI工具,参考Github-AiBard123,国内AiBard123