海外人工智能公司Writer的GraphRAG实践揭秘-Part1 作者：知识图谱科技来源：知识图谱科技 ####检索增强生成（RAG）&GraphRAG： ####它是什么，以及为什么对企业GenAI是一个热门话题？就像GPS已经彻底改变了我们的旅行方式一样，检索增强生成（RAG）正在改变AI语言模型

海外人工智能公司Writer的GraphRAG实践揭秘-Part1

By AiBard123
April 22, 2024 - 2 min read

作者：知识图谱科技来源：知识图谱科技

####检索增强生成（RAG）&GraphRAG：

####它是什么，以及为什么对企业GenAI是一个热门话题？

就像GPS已经彻底改变了我们的旅行方式一样，检索增强生成（RAG）正在改变AI语言模型在复杂数据领域中导航的方式，使企业生成AI解决方案触手可及。

大型语言模型（LLMs）在其自身强大的同时，是基于从类似Common Crawl等公共存储库中获取的大量数据进行训练的，但它们并不包含您的员工或客户可能正在寻找的公司特定信息。LLMs可能会在回答公司或产品特定问题、生成符合行业或品牌标准的内容以及在服务智能体角色中提供支持等任务上遇到困难。LLMs就像导航系统，能将您带到一个一般区域，但无法到达具体地址。您可能需要输入更具体的坐标才能到达正确的地点。

进入检索增强生成（RAG）。将其视为AI可靠的GPS系统——它帮助模型准确定位信息的精确位置并将其传递给最终用户。借助RAG，AI可以生成具有上下文相关洞见，做出明智决策并有效地抵达目的地。

让我们探讨一下RAG是什么，它是如何工作的。我们还将讨论RAG的Writer方法以及我们的信息检索解决方案Knowledge Graph知识图谱如何赋予企业AI用户生成更准确、具有上下文的洞见的能力。文末有彩蛋。

检索增强生成（RAG）将信息检索与文本生成结合在一起，提高了AI生成内容的质量和准确性。
RAG通过从其他资源中提取相关上下文信息解决了大型语言模型（LLMs）的局限性。
Writer知识图谱是一个全面平台，简化和优化了RAG过程，提供了改进的性能、成本效益、安全性和可扩展性。
Writer知识图谱方法使企业能够最大程度地享受RAG的益处，而无需建立他们自己的系统的复杂性和成本。

RAG是什么

RAG是将信息检索与文本生成相结合的自然语言处理方法。在企业中，RAG在实现各种业务任务的生成式人工智能方面发挥着至关重要的作用，包括入职流程、问答、聊天机器人、内容生成、文档摘要和服务代理支持。

RAG的神奇之处在于它能够从附加资源（如文档和数据库）中获取与上下文相关的信息，并将其编织成类似人类的文本。简单来说，它赋予了人工智能系统利用组织自身数据的能力，并利用这些知识来提升它们生成的内容的质量和准确性。

RAG 是一个系统，它查看大量数据，找到重要内容，并将它们与大型语言模型联系起来。

RAG的独特之处在于其精确性和可靠性。当您提出问题时，RAG不会猜测——它会从庞大的组织知识海洋中找到正确的答案。它确保生成的回复不仅在语境上合适，而且事实上是正确的。

想象一下一个始终了解您的产品或政策信息的聊天机器人，一个能准确把握要点的文档摘要生成器，以及一个可以依赖的问答系统。RAG提升了您的人工智能系统，使它们变得更加精确和智能。

RAG的关键组成部分

虽然大型语言模型在文本生成方面表现出色，但它们经常在准确检索信息方面遇到困难，甚至会产生“幻觉”。RAG通过将信息检索和文本生成组件相结合，以创建具有语境相关性的回复来解决这些限制。让我们来探讨一下RAG过程的几个组成部分：

1. 信息预处理

此步骤涉及将所有相关数据使用数据传输软件（ETL）汇总到一个地方，并为上下文集成过程做好准备。信息预处理类似于在现实世界的图书馆中编目。这包括将信息组织到类别中，并为每条信息分配关键词，以便更轻松地检索和识别。此过程有助于使数据更易访问、更容易搜索和理解。

2. 上下文集成

此步骤涉及将组织好的数据存储在矢量数据库或合适位置中，为其顺利集成到文本生成过程中搭建舞台。它涉及根据相关关键词或术语创建一个分层结构，然后可以快速轻松地用于定位相关文档或文本。这可以类比于根据相关主题或流派存放图书的过程，这有助于读者快速找到他们需要的资料。

3. 文本生成

语言模型，例如 Palmyra 或 GPT ，利用集成的上下文生成高质量和上下文相关的文本回复。

4. 后处理和输出

在初始文本生成之后，RAG的工作仍在进行。生成的文本可能会经过后处理，包括过滤、摘要等转换，以满足特定要求和质量标准。此步骤确保最终输出经过了精细和打磨。

5. 用户界面/部署

最终，RAG的协调结果通常通过用户界面交付，或集成到更大的应用程序或服务中，例如聊天机器人或搜索引擎。这是用户与RAG互动的接口，接收具有语境相关和准确信息。

Writer知识图谱(Knowledge Graph)方法：加速RAG用于企业用例

在企业解决方案中实施RAG可能是一个复杂且成本高昂的工作，其中可能存在安全性、隐私和合规风险。RAG的实施需要许多组件。这些包括数据预处理，将图像、文本和视频转化为可嵌入概念的工具，一个像Pinecone这样的矢量数据库，以及一个搜索算法（例如 KNN 或 ANN）。

此外，大型语言模型（LLM）与搜索算法/矢量数据库之间的集成对于高效的知识检索和生成至关重要。与这些组件相关的成本可能非常可观，有时甚至可以达到数百万美元，更不用说扩展矢量数据库本身的费用了。

然而，Writer知识图谱提供了一种卓越的解决方案，特别适用于高级写作应用。知识图谱是一个全面且集成的平台，将RAG的强大功能与强大的知识图谱基础设施相结合。

Writer知识图谱起着至关重要的作用，是我们对RAG方法的一种实现。它连接到您最重要的数据来源，例如公司维基、云存储平台、公共聊天渠道、产品知识库等，因此，Writer可以访问公司真实数据源。

虽然RAG是一种解决商业问题的方法，但Writer知识图谱是Writer对RAG的具体实现，提供了全面和优化的解决方案。与其他需要拼凑多个软件工具的实现不同，Writer采用了全栈方法来处理RAG，简化了流程并提供了卓越的结果。Writer知识图谱使用检索感知压缩（RAC）模型，可以实现跨大量文档进行多层次问答交互。这意味着用户可以轻松向知识图谱提出复杂的查询，它会智能地检索并展示来自相互关联数据源的相关信息。RAC模型确保了高效和准确的检索，使用户可以快速轻松地访问最相关的信息。

通过提供完整和集成的RAG解决方案，Writer消除了企业在构建自己的RAG系统方面投入大量时间、精力和资源的必要性。有了Writer，企业可以在不必担心拼凑不同软件工具带来的复杂性和安全问题的情况下取得更好的成果。它为RAG提供了一种简化和优化的方法，使用户能够有效高效地解决业务问题。

为什么Writer GraphRAG方法更好

当涉及将您的内部数据集与大型语言模型（LLM）集成时，Writer提供了一种完全打包、安全且具有成本效益的方法。让我们探讨一下Writer知识图方法的主要优势：

1. 提高性能

知识图谱通过优化我们堆栈的每个组件，确保不同元素之间进行有效协作，从而提高性能。这导致了增强的准确性和与上下文相关的内容生成。例如，我们的融合式解码器方法通过结合检索和生成模型的优势改善性能，从而提高了先进的开放领域问答性能。

2. 成本效益

知识图谱显著降低了实施RAG相关成本。企业可以利用Writer知识图谱的集成基础设施，而无需投资于多个组件和扩展矢量数据库，从而实现大幅降低成本。这种成本效益使其成为那些希望最大化投资回报的组织所钟爱的解决方案。

3. 更高的安全性和隐私性

将内部数据保留在Writer知识图谱中可以增强安全性和隐私性。与将数据发送至另一个矢量数据库服务、嵌入服务、额外的LLM、ETL工具等不同，Writer知识图谱确保敏感信息仍在您组织的基础设施内。此方法可减少与数据泄露和未经授权访问相关的风险，从而为处理机密或专有数据的企业提供安心。

####4. 简化实施

Writer知识图谱通过提供一个统一平台，整合了所有RAG所需的组件，简化了实施过程。这消除了对单独工具和数据库的需求，降低了复杂性，节省了时间和资源。

####5. 可伸缩性和性能

Writer知识图谱旨在处理大规模企业用例。它提供可扩展性和高性能能力，即使在复杂和苛刻的环境中，也能实现高效的知识检索和生成。与我们在自己的测试中发现的矢量数据库的行业标准方法不同，后者在成本和性能方面都无法扩展，Writer知识图谱利用优化的算法和基础设施提供出色的可扩展性和性能。这确保了您的组织可以无缝访问和生成所需的信息，而不会在速度或效率上妥协。

WRITER GraphRAG工作原理揭秘

1，更丰富的语义理解 - Richer semantic understanding

知识图谱GraphRAG模型依赖于专门训练的LLM，该模型可以大规模处理数据并构建数据点之间有价值的语义关系。它以一种经济高效、易于更新的图结构存储数据。传统的RAG方法只是通过将数据转换为向量嵌入，只能通过数据点之间的距离来定义相似性，但在它们的语义关系上缺乏上下文。向量数据库也难以维护和更新，而且成本高昂。

**2，准确的检索方法论 -**Accurate retrieval methodology

由于图结构保留语义关系，知识图谱可以准确检索每个查询的相关数据。我们的检索感知压缩技术压缩数据并使用元数据进行索引，从而赋予数据丰富的背景。而传统的RAG将查询转换为向量嵌入，并使用粗糙的算法查找与查询最接近的数据点，但并不理解数据点之间的关系。当数据密集时，这种方法无法始终返回最相关的数据。

**3，前沿的大模型能力 -**State-of-the-art LLMs

为了生成响应，Knowledge Graph知识图谱将相关数据发送到我们的 Palmyra LLM，这些 LLM 是经过训练的顶尖模型，使用了1万亿个高质量数据标记。我们应用先进技术来提高性能并最小化幻觉。回答的质量取决于检索的质量，而产生幻觉的程度取决于基础LLM的质量和您采用的技术。

数据驱动的未来：RAG和知识图谱

检索增强生成并不只是企业人工智能领域中的又一个时髦词汇，它正在重新定义企业如何为员工和客户提供信息。在这个信息丰富的时代，RAG作为人类智慧的象征，引导企业生成式人工智能走向知识即力量、可能性无限的未来。

借助Writer知识图谱，企业可以实现RAG的好处，而无需承担DIY实施所带来的复杂性和成本。Writer知识图谱赋能企业最大限度地提升创造力、生产力和合规性，为企业生成式人工智能的使用树立了新标准。

后续我们还将详细介绍企业级RAG向量检索的限制以及GraphRAG的优化方案，敬请期待

**本文编译自:

https://writer.com/blog/retrieval-augmented-generation-rag/

Writer刚发布了企业生成式人工智能傻瓜指南，主要内容包括

行业领袖成功实施生成式人工智能并在其组织的团队中产生业务影响的真实用例。
生成式人工智能如何无缝集成到您现有的工作流程中，确保内容管理中的合规性、准确性和品牌一致性。
有关人工智能保障措施以及选择合适的专业知识和技术减轻任何潜在风险重要性的见解。

**如需获取全文，关注公众号，发送"**writerguide"关键词

更多AI工具，参考Github-AiBard123，国内AiBard123

可关注我们的公众号：每天AI新工具