AI 文摘

关于GraphRag你所需知道的





作者: mingupup的学习记录 来源: mingupup的学习记录

Graph RAG是什么?

GraphRAG是一种基于AI的内容理解和搜索能力,利用LLMs,解析数据以创建知识图谱,并对用户提供的私有数据集回答用户问题的方法。

Graph RAG能做什么?

GraphRAG能够连接大量信息中的知识点,并利用这些联系来回答那些使用关键词和向量搜索机制难以或不可能回答的问题。基于之前的答案,提供关于如何系统提供各种用途的功能的中等技术高标准信息。这允许系统使用GraphRAG来回答跨多个文档的问题,并针对主题性问题比如“在这个数据集中,主要主题是什么?”

GraphRAG的预期用途是什么?

  • GraphRAG旨在支持关键的信息发现和分析用例,其中所需的信息跨越了多个文档,可能很杂乱,可能混有错误信息或虚假信息,或当用户试图回答的问题比基础数据可以直接回答的问题更为抽象或更具主题性时。

  • GraphRAG旨在用于用户已经接受过负责任的分析方法培训,并且期望进行批判性推理的环境。GraphRAG有能力对复杂信息主题提供高度的见解,但是需要领域专家的人类分析来验证和增强GraphRAG生成的响应。

  • GraphRAG旨在与特定领域的文本数据集进行部署和使用。GraphRAG本身并不收集用户数据,但鼓励用户验证所选LLM(语言模型)的隐私政策,以配置GraphRAG。

GraphRAG是如何进行评估的?使用了哪些指标来衡量性能?

GraphRAG在多种方式下进行了评估。主要关切点包括:

1)数据集的准确表示:详细描述了如何评估GraphRAG是否能够准确地表示所提供的数据集。2)响应的透明性和根基性:说明了如何确保GraphRAG的响应基于提供的数据和语料库,以及它能够提供清晰的透明性。3)对指令和数据语料库注入攻击的韧性:阐述了GraphRAG设计时如何考虑到防止针对其指令和数据集进行注入攻击的能力。4)低幻觉率:描述了如何评估GraphRAG产生虚假或不合理答案的可能性。

  1. 数据集的准确表示已经通过人工检查和针对由测试语料库中随机选取的子集创建的“黄金答案”的自动化测试进行了测试。

  2. 要通过自动化答案覆盖率评估和人为检查返回的上下文来测试响应的透明度和扎实性。

  3. 我们使用手动和半自动化技术来测试两种用户提示注入攻击(“越狱”)和跨提示注入攻击(“数据攻击”)。

  4. 幻觉频率是通过声称覆盖指标、手动检查答案和来源,以及通过对抗性攻击来尝试激发幻觉来评估的,这些攻击主要通过对抗性和特别具有挑战性的数据集来完成。

GraphRAG的限制有哪些?用户在使用系统时如何最小化GraphRAG的限制影响?

GraphRAG 在构建索引示例时依赖良好的构造。对于一般应用(比如围绕人物、地点、组织、事物等的内容),我们提供了示范性的索引指导。然而,为了适合不同的数据集,有效的索引可能依赖于对特定领域概念的恰当识别。

索引操作相对较昂贵;应采取的最佳实践是在目标域中创建小型测试数据集,以在大规模索引操作之前验证索引器性能。

如何更有效更负责任地使用Graph Rag?

GraphRAG 专为具备领域专业知识且擅长处理复杂信息难题的用户设计。该方法在一般情况下对抗注入攻击和识别信息来源冲突能力较强,但系统的设计是针对可信任用户。对响应的人类分析至关重要,以产生可靠见解,并追查信息来源,以确保人类对生成答案过程中做出的推断达成一致意见。

GraphRAG在自然语言文本数据上产生最有效结果,这些数据集围绕一个总体主题或主题,并且实体丰富。实体指的是可以唯一识别的个人、地点、事物或对象。

GraphRAG在对提示和数据库注入攻击的鲁棒性进行了评估,对其可能引发的特定类型伤害也进行了测试。然而,用户配置的LLM与GraphRAG结合使用时,可能会产生不适当或冒犯性的内容,因此在没有针对特定用例和模型的专门缓解措施的情况下,将其部署在敏感环境可能是不合适的。

开发人员应对输出进行上下文评估,并使用现有的安全分类器、针对特定模型的安全过滤器和功能(例如 https://azure.microsoft.com/zh-cn/products/ai-services/ai-content-safety),或适用于其应用场景的自定义解决方案进行评估。

原文地址

本文翻译自:GraphRAG: Responsible AI FAQ,原文地址:https://github.com/microsoft/graphrag/blob/main/RAI_TRANSPARENCY.md

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具