卡内基梅隆:什么样的RAG配置是最佳配置
作者: 大语言模型论文跟踪 来源: 大语言模型论文跟踪
RAG 数据库问答
摘要
RAG技术通过为诸如DBQA这类任务补充背景信息,极大提升了LM的表现力,但其效能却与配置紧密相关,于是产生了一个核心问题——究竟怎样的RAG配置最为理想?为了解答这个问题,我们创新提出了RAGGED框架,用于深入分析并优化RAG系统。
框架
作者为了评价什么样的RAG配置最为合理,针对RAG的不同部分进行了测试和评估。比如下图,作者把RAG系统划分为三部分:Retriever、Documents、Reader。
针对以下三个方面的参数变化,来探讨最好的RAG组合。
• RAG 系统组件,例如:检索器Retriever(例如,BM25、ColBERT)、阅读器家族Reader(例如,LLaMa2、FlanT5)和最大输入长度。• 检索到的段落数量,表示为 n。我们将 n 从 1 变化到 100,尽管作者发现在 n = 30 之前最具洞察力的行为变化。• 要检查的数据切片。例如,我们检查前 n 个检索到的段落包含金标准段落和不包含金标准段落的切片。
数据集
-
• Natural Questions:我们选择了自然问题(NQ)数据集(Kwiatkowski等人,2019年),以检验模型在最通用的开放域、单跳问题上的表现。NQ问题是Google上的真实用户搜索查询。我们采用了该数据集的KILT版本(Petroni等人,2021年),该版本为每个示例提供至少一个金标准相关段落和一个简短答案。
-
• HotpotQA:我们选择了HotpotQA(Yang等人,2018年),它提供了具有挑战性的多跳问题。每个问题需要在至少两个段落上进行推理才能回答。虽然与NQ数据集保持相同的维基百科领域,但HotpotQA使得可以比较模型对多个证据片段的推理能力。
-
• BioASQ:我们选择了BioASQ的任务11B(Krithara等人,2023年),其中包含生物医学问题,作为特殊领域问题的代表。我们的评估数据集是BioASQ任务11B的训练集和金标准丰富集的汇编。BioASQ还提出了具有挑战性的问题类型,如列表和是/否问题。
结果
https://arxiv.org/abs/2403.09040
更多AI工具,参考Github-AiBard123,国内AiBard123