AI 文摘

Neo4jCTO:“‘蓝链时代’正在来临!”一文详解为什么GraphRAG是AI落地应用的关键突破。





作者: Admiral柴勒梅徳的梦 来源: Admiral柴勒梅徳的梦

我们正在进入检索增强生成(RAG)技术的新阶段,被称为"蓝色链接"时代。这个阶段标志着AI领域的一个重要转变,强调为了使生成式AI(GenAI)更加实用,我们需要超越仅依赖大型语言模型(LLMs)做决策的方法。虽然基于向量的RAG和模型微调在某些情况下很有效,但它们仍然存在局限性,无法完全保证答案的准确性和提供完整的上下文信息。

这个问题的解决方案可以追溯到2012年,当时Google发现使用知识图谱组织信息比单纯处理文本字符串更有效。现在,AI研究人员也得出了类似的结论,认识到将知识图谱与向量技术结合可以带来更好的结果。这种结合被称为GraphRAG,它不仅让AI系统的开发变得更容易,还能提供更准确的答案,而且这些答案是可解释和可审计的。这些特点使得GraphRAG有望成为大多数用例中的默认RAG架构。

什么是“Graph"?

图是一种强大的数据表示结构,可以用于多种场景,如构建知识图谱、展示复杂的关系网络(例如《权力的游戏》中的角色关系),或者表示交通网络(如伦敦地铁图)。

在RAG系统中,图结构极大地便利了数据的查询和管理。我们可以通过两种主要方式来表示知识:向量和知识图谱。向量本质上是一组数字,它们擅长快速找到相似的文本内容,但在解释和分析数据细节方面存在不足。相比之下,知识图谱就像一本数字化的百科全书,能够清晰地展示信息之间的关系,这使得它非常适合需要深入理解和复杂推理的任务。

总的来说,向量适合进行简单的相似度搜索,而知识图谱更适合需要深入理解和复杂推理的场景。GraphRAG技术通过巧妙地结合这两者的优势,为AI系统提供了更强大、更灵活的信息检索和处理能力。

什么是GraphRAG?

GraphRAG和RAG不是竞争关系,而是互补的技术。它们都属于检索增强生成(Retrieval-Augmented Generation)的范畴,目的是提高AI回答问题的准确性。

RAG主要依赖向量搜索,就像在一本书里根据相似度找答案。GraphRAG则在此基础上增加了知识图谱(Knowledge Graph)的概念,这让AI能更好地理解信息之间的逻辑关系。

GraphRAG的核心架构与传统RAG相似,但多了一个知识图谱层。这个图谱可以存储在专门的图数据库中,比如Neo4j,它既支持图结构也支持向量搜索。

使用GraphRAG的典型流程如下:

  1. 通过向量相似度或关键词搜索定位初始节点

  2. 在知识图谱中遍历相关节点,获取更多上下文信息

  3. 可选地使用图算法(如PageRank)对检索到的文档进行重新排序

GraphRAG是一个快速发展的领域,研究人员不断探索新的应用模式。它结合了向量搜索的高效性和知识图谱的结构化优势,为AI提供了更全面的信息检索能力。

这种方法让AI不仅能找到相关信息,还能理解信息之间的关系,从而产生更加准确和有洞察力的回答。

GraphRAG的优势

相比传统的RAG方法,GraphRAG具有三大主要优势:

  1. 更高的准确性和更完整的答案

多项研究表明,GraphRAG能显著提升AI响应的准确性。例如,Data.world的一项研究发现,在43个商业问题上,GraphRAG平均将LLM响应的准确率提高了3倍。

Microsoft的研究也指出,GraphRAG在以下两种情况下表现尤为出色:

  • 需要连接分散信息点来提供新的综合洞察时

  • 需要全面理解大型数据集或长文档中的语义概念时

更重要的是,GraphRAG不仅提高了答案的正确性,还增强了答案的丰富度和实用性。LinkedIn在其客户服务应用中应用GraphRAG后,中位数问题解决时间减少了28.6%。

  1. 更好的数据理解,更快的迭代

知识图谱直观且可视化,这使得开发人员能更容易理解和调试他们的GenAI应用。一位金融科技公司的开发者在引入知识图谱一周后表示:“这真是太棒了!我们现在可以看到数据中的实际实体和关系,而不仅仅是一堆向量。这让调试和改进我们的模型变得容易多了。”

  1. 更强的治理能力:可解释性、安全性等

对于高影响力的AI决策,我们需要能够解释决策背后的推理过程。知识图谱在这方面具有天然优势,它使GenAI管道中的推理逻辑更清晰,输入更易于解释。

此外,知识图谱还可以显著增强安全性和隐私保护。在银行或医疗等受监管行业,可以通过知识图谱实现细粒度的访问控制,确保每个用户只能访问其角色允许的信息。

如何构建知识图谱?

要回答这个问题,首先需要了解对生成式AI应用最相关的两种图:

领域图是与你的应用相关的世界模型的图表示。

下面是一个简单的例子:

词汇图是文档结构的图。

最基本的词汇图是每个文本块都有一个节点:

人们通常会扩展它,包括文本块和文档对象(如表格)、章节、部分、页码、文档名称/ID、集合、来源等之间的关系。你也可以像这样结合领域图和词汇图:

词汇图的创建相对简单,主要依赖于基本的文本解析和分块策略。而领域图的构建则取决于数据源的性质 - 可能是结构化数据、非结构化文本,或两者的结合。

“图”完善的工具生态

近年来,从非结构化数据创建知识图谱的工具取得了显著进步。例如,Neo4j的知识图谱构建器能够自动从PDF文档、网页、YouTube视频或维基百科文章中生成知识图谱。这种工具大大降低了创建知识图谱的技术门槛,使得可视化和查询复杂信息变得异常简单。

对于企业环境,许多关键数据(如客户信息、产品目录、地理位置等)通常以结构化形式存储。这些数据可以直接从其存储位置提取。对于存储在关系数据库中的数据,有多种成熟的工具可以按照验证过的规则将关系数据映射到图结构中。

一旦构建了知识图谱,有多种框架可用于实现GraphRAG。比如LlamaIndex的属性图索引、Langchain的Neo4j集成,以及Haystack等。这个领域发展迅速,使得即使对于初学者来说,实现GraphRAG也变得越来越容易。

在图构建方面,像Neo4j Importer这样的工具提供了图形用户界面,简化了将表格数据映射和导入到图中的过程。此外,Neo4j的新版LLM知识图谱构建器进一步自动化了这个过程。

另一个重要的进展是自然语言到图查询的映射。Neo4j的开源工具NeoConverse就是为了解决这个问题而设计的,它能够帮助用户用自然语言查询图谱。这是向更通用的图谱应用迈出的重要一步。

虽然掌握图谱技术确实需要一定的学习和实践,但好消息是,随着工具的不断改进,这个过程正变得越来越简单。GraphRAG的发展不仅提高了AI系统的性能,还增强了其可解释性和可靠性,为下一代AI应用铺平了道路。

GraphRAG是RAG的自然进化

就像Google发现要掌握搜索,他们需要超越纯文本分析,映射出字符串背后的实体一样,我们现在看到AI世界正在经历类似的模式。这个模式就是GraphRAG。

随着GenAI的进展,对于那些答案质量至关重要、需要可解释性,或者需要对数据访问进行细粒度控制以保护隐私和安全的应用场景,GraphRAG很可能成为下一代GenAI应用的标准配置。

如果你准备亲身体验GraphRAG的力量,不妨试试Neo4j LLM Knowledge Graph Builder。这个简单的Web应用允许你只需点击几下,就能从PDF、网页、YouTube视频等非结构化文本源创建知识图谱。它是体验GraphRAG威力的完美游乐场。

随着工具的不断改进,构建和使用知识图谱变得越来越容易。我们期待看到更多创新的GraphRAG应用在各个领域涌现,为AI带来更智能、更可靠的未来。

本文源自Neo4j CTOPhilip Rathle 菲利普·拉特尔的文章,

The GraphRAG Manifesto: Adding Knowledge to GenAI

https://neo4j.com/blog/graphrag-manifesto/

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具