AI 文摘

GrahRAG简明教程-使用通义千问分析特朗普枪击事件





作者: 华氏98点6度 来源: 华氏98点6度

摘要

本文介绍了一个使用GraphRAG和通义千问API分析川普枪击事件的方法。由于GraphRAG目前只支持OpenAI API,采用One-Api将通义转成了OpenAI API风格的接口。

本文使用了通义千问的开源qwen2-72b-instruct模型和text-embedding-v2模型。

GraphRAG 介绍

微软最近开源了名为GraphRAG的技术,这是一种结合了文本提取、网络分析以及大型语言模型(LLM)提示和总结的端到端系统,旨在丰富地理解文本数据集。GraphRAG代表了一种结构化、层次化的检索增强生成(RAG)方法,与传统的基于纯文本片段的语义搜索方法不同。
GraphRAG通过从原始文本中提取知识图谱,并构建社区层次结构,生成这些社区的摘要,然后在执行基于RAG的任务时利用这些结构。这种方法在处理私有数据集时,特别是在问答性能方面,显示出了对复杂信息的推理能力,相较于传统的RAG技术有了显著提升。
在GitHub上推出后,GraphRAG项目迅速获得了社区的广泛关注,获得了2700颗star。微软在其博客上介绍了GraphRAG,并指出它在处理私有数据集时,如企业的专有研究、商业文件或通讯等,提供了显著的性能提升。在大规模播客和新闻数据集上进行的测试显示,在全面性、多样性和赋权性方面,GraphRAG都优于朴素RAG技术。
GraphRAG的开源地址为:https://github.com/microsoft/graphrag,开发者们对此表现出极大的兴趣,并期待尝试这一技术。
与传统的RAG方法相比,GraphRAG在处理需要全局理解的海量数据查询时,能够更好地捕捉文本中的复杂联系和交互,从而增强其生成和检索能力。实验结果表明,GraphRAG在全面性和多样性测试上超越了Naive RAG等方法,并且具有较低的资源需求。
总的来说,GraphRAG是微软在增强大语言模型能力方面的一大进步,它通过构建知识图谱和图机器学习,极大地增强了LLM在处理私有数据时的性能,尤其是在跨大型数据集的复杂语义问题推理能力方面。

环境部署


git clone [email protected]:microsoft/graphrag.git
  

cd graphrag
  

poetry install ## 测试直接采用poetry运行本地文件, wheel包目前自测下来有坑, 直接pip安装有问题
  

## 新建graphrag 项目
poetry run poe index --root ~/trumprag/ --init
  

## 创建输入
mkdir -p ~/trumprag/input
  

  

## 上传新闻稿到input目录下
## 来源: https://finance.eastmoney.com/a/202407143130425967.html
  

## 本地起one-api服务
## https://github.com/songquanpeng/one-api
## one-api部署手册见:https://github.com/songquanpeng/one-api?tab=readme-ov-file#%E6%89%8B%E5%8A%A8%E9%83%A8%E7%BD%B2
  

##修改setting.yaml
## 见https://github.com/flyrae/trumprag/blob/main/settings.yaml

运行

1.运行Indexing Engine
poetry run poe index –root ~/trumprag/

最后得到下面的日志则说明成功执行。

1.运行查询
poetry run poe query –root ~/trumprag/ –method global “特朗普发生了什么事”

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具