Rageval:评估检索增强生成(RAG)方法的工具
作者: GitHubStore 来源: GitHubStore
项目简介
Rageval 是一个帮助您评估 RAG 系统的工具。评估由六个子任务组成,包括查询重写、文档排名、信息压缩、证据验证、答案生成和结果验证。
任务和指标的定义
####1. 生成任务
生成任务是根据 RAG 中检索模块提供的上下文来回答问题。通常,上下文可以从压缩器中提取/生成文本片段,或者从重新排名器中提取/生成相关文档。在这里,我们将生成任务中使用的指标分为两类,即答案正确性和答案扎根性。
(1)答案正确性:这类指标是通过将生成的答案与真实答案进行比较来评估正确性。以下是一些常用的指标:
-
答案 F1 正确性:广泛应用于论文(江 et al.)、论文(Yu et al.)、论文(Xu et al.)等。
-
答案 NLI 正确性:在论文中也称为权利要求召回(Tianyu et al.)。
-
答案 EM 正确性:也称为论文中使用的精确匹配(Ivan Stelmakh 等人)。
-
答案 Bleu Score:也称为论文中使用的 Bleu(Kishore Papineni 等人)。
-
答案 Ter Score:也称为论文中使用的翻译编辑率(Snover 等人)。
-
答案 chrF 分数:也称为论文中使用的字符 n-gram F 分数(Popovic 等人)。
-
答案 Disambig-F1:也称为Disambig-F1,用于论文(Ivan Stelmakh等人)和论文(Zhengbao 江等人)。
-
答案 胭脂正确性:也称为胭脂,如论文(Chin-Yew Lin)。
-
答案准确性:也称为论文中使用的准确性(Dan Hendrycks 等人)。
-
答案 LCS 比率:也称为论文中使用的 LCS(%)(Nashid 等人)。
-
答案 编辑距离:也称为论文中使用的编辑距离(Nashid 等人)。
(2)答案扎根性:这类指标是通过将生成的答案与提供的上下文进行比较来评估扎根性(也称为事实一致性)。以下是一些常用的指标:
-
答:论文中的引文精度(Tianyu et al.)。
-
答案 引文回忆:在论文中也称为引文回忆(Tianyu et al.)。
-
上下文拒绝率:在论文中也称为拒绝率(Wenhao Yu et al.)。
####2. 重写任务
重写任务是将用户问题重新表述为一组查询,使它们对 RAG 中的搜索模块更友好。
####3. 搜索任务
搜索任务是从知识库中检索相关文档。
(1) 上下文充分性:这类指标是通过将检索到的文档与真实上下文进行比较来评估充分性。以下是一些常用的指标:
(2)上下文相关性:这类指标是通过将检索到的文档与真实答案进行比较来评估相关性。以下是一些常用的指标:
- 上下文召回:在RAGAS框架中也称为上下文召回。
项目链接
关注「GitHubStore 」公众号
扫一扫以下微信
1 加入技术交流群,备注「开发语言-城市-昵称 」
更多AI工具,参考Github-AiBard123,国内AiBard123