ResearchAgent?基于LLM+KG+AGENT进行科研想法生成:兼看2023-2024年人工智能代表50公司
作者: 老刘说NLP 来源: 老刘说NLP
今天是2024年4月14日,星期日,四月份即将过半,北京的雨季悄然要来了。
我们继续来看看一些进展:
在技术侧,我们先来具体看看大模型、一个LLM+KG+AGENT的集合思路:ResearchAgen研究想法生成的工作;
在商业化侧,我们来看看关于AI top50的榜单推荐,可以从中看到大致的商业化趋势,以及一些对比,
供大家一起参考并思考。
一、一个LLM+KG+AGENT的融合思路:ResearchAgen研究想法生成
我们来看看关于Agent的工作,这个有趣, ResearchAgent: 利用大模型在科学文献中进行迭代研究想法生成:《ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models》(https://arxiv.org/pdf/2404.07738) ,值得一读。
该工作提出了一种名为ResearchAgent的研究想法写作代理,一个基于大语言模型的研究代理,能够自动生成问题、方法和实验设计,并在科学文献的基础上迭代地进行优化,。
具体而言,如下图所示:
主要包括两个部分:
一个是(A)用于生成研究想法的科学知识(problem identification),包括一篇论文、其在图谱中的关系以及从众多论文中提取的知识存储中的实体;
另一个是(B) Systematic Approach for Research Idea Generation,包括问题识别、方法开发和实验设计 ,这些工作还将通过审查代理的审查和反馈进行反复改进,并与人类判断的标准保持一致。
也就是说,其从核心论文作为产生想法的主要来源开始,ResearchAgent不仅要通过在图表上连接信息来与相关出版物进行扩展,而且还通过在大量论文中挖掘和共享基于其基本概念从以实体为中心的知识库中检索的实体进行扩展 。
此外,还利用多个Re-viewing Agen t,以迭代方式提供评论和反馈。
我们来看看细节的实现过程:
1、基于大模型的研究思路生成:LLM-Powered Research Idea Generation
在形式上,p=LLM(Tp(L))表示问题识别步骤,m=LLM(Tm(p,L))表示方法开发步骤,d=LLM(Te(p,m,L))表示实验设计步骤,这就构成了完整的想法:o=[p,m,d]。
因此,其中最为关键的是,如何利用大量文献来实际生成LLM的研究提案,即找到论文集合,但由于其输入长度和推理能力的限制,尤其是在长上下文下,应该从中找到一个有意义的子集。
为了实现这一目标,仿照人类研究人员的研究过程,我们一般可以通过浏览引用或被引用的其他论文来扩展自己对某篇论文的知识,对于LMM,可以通过提供L中的核心论文l0来启动其文献综述流程,然后根据引文图谱选择性地纳入与之直接相关的后续论文{l1,…,ln},这个就对应一个检索的agent 。
但问题又来了,如何进行选择,该工作设计了两种设计方案来操作核心论文及其相关引文的选择过程:
一个是核心论文,根据其被引次数(例如,3个月内超过100次)来选择,这通常表明论文具有很高的影响力;
另一个是相关论文(可能很多),根据其摘要与核心论文的相似度来进一步缩小选择范围,从而确保相关工作的集中度和相关性更高。
其总共涉及到Problem Identification、Method Developmen、Experiment Design三个阶段的工作,我们来看看。
首先是,problem identification ,先生成研究想法,对应的prompt如下:
2、以实体为中心的知识扩充:Entity-Centric Knowledge Augmentation
在获取基本论文集合之后还,接下来就需要解决如何有效地获取、存储和使用科学文献中的知识。在这项工作中,将实体视为知识的原子单位,这样就能以跨学科的统一方式积累大量论文中的知识,这块就用到知识图谱的东西了。
例如,只要术语出现在任何一篇论文中,就可以使用现有的实体链接方法提取术语,然后将其链接到知识库中。然后,如果数据库一词在医学科学领域很流行,但在血液学(属于医学科学的一个子领域)中却不太流行,那么所构建的知识库就会根据重叠的实体捕捉这两个领域之间的相关性,然后在提出有关血液学的观点时提供数据库一词,这种方法的好处在于可以利用各领域实体之间的相互联系,提供新颖的跨学科见解。
在形式上,将知识存储设计为一个二维矩阵K∈Rm×m,其中m是已识别的唯一实体总数,K以稀疏格式实现。
该知识库是通过提取文献中所有可用科学文章中的实体而构建的,不仅计算了单篇论文中实体对之间的共现次数,还量化了每个实体的计数。
其中,实体链接采用**《Scalable Zero-shot Entity Linking with Dense Entity Retrieval》(https://aclanthology.org/2020.emnlp-main.519/)** ,该链接器可对L中特定论文l中的实体进行标记和规范化。
提取实体E后,为了将其存储到知识存储K中,考虑了E的所有可能配对,其。
有了这个知识库K,下一个目标就是基于一组相互关联的论文来增强研究构想的生成过程, 在具体实现上,使用知识图谱K中的相关实体对LLM进行扩充,这些实体可以通过提供额外的知识来扩展文本知识(LLM可以使用的知识),这样做的好处在于,这些知识在当前论文组中没有出现过,但与当前论文组相关,是根据知识图谱K中存储的实体(共)出现信息识别出来的,可以增强其外延信息。
因此,这一步的阶段,可以归结为method developement阶段,其对应的的prompt如下:
在有了扩充之后的研究方案之后,接着进行实验设计部分设计,对应的prompt设计如下:
3、与人类偏好相匹配的LLM代理迭代改进研究思路
考虑到试图一次性写出完整的研究构思可能不是一种有效的策略,这与人类根据多次审核和反馈不断改进草稿的做法不符,因此,该工作提出了一种迭代改进策略,即由LLM驱动的审阅代理(称为审阅代理)根据特定标准提供审阅和反馈,以验证生成的研究构思。
具体来说,与用LLM和模板(T)实例化研究代理(ResearchAgent)的方法类似,审查代理(ReviewingAgents)也是用不同的模板实例化的,其针对生成的每个研究想法(问题、方法和实验设计)分别进行评估。
这里也是通过prompt来操作,例如:
对研究问题做验证的prompt:
对实验方法做验证的prompt:
对实验设计做验证的prompt:
二、在看产品侧:有趣的2024AI-50公司归类
《AI 50: Companies of the Future》(https://www.sequoiacap.com/article/ai-50-2024/)一文对2024年的AI-50 企业进行了整理,如下:
该文章认为,2024年人工智能50名单中的重大变化凸显了生成性人工智能如何提高企业和行业生产力。企业一般生产力类别今年翻了一番,从四家公司到八家,因为他们扩大了产品以满足客户日益增长的需求。
五个生产力应用程序,OpenAI的ChatGPT,Anthropic的Claude,DeepL,Notion和Tome现在为消费者、消费者和企业层面的客户提供服务。图像编辑器Photoroom、视频生成应用程序Pika和游戏构建器Rosebud显示,创意软件的消费者和消费者之间的界限正在模糊。总体而言,该类别的公司也翻了一番,从三家到六家。
当然,我们也可以在**《Generative AI Is Exploding. These Are The Most Important Trends To Know》(https://www.sequoiacap.com/article/ai-50-2023/)** 中来看看2023年的版本。
2023年,生成式AI的进展主要在人工智能基础设施的建设上,如chatgpt等,OpenAI推出的ChatGPT和GPT-4引起了巨大轰动,但他们在规模和一种名为"强化学习与人类反馈"(RLHF)的技术上的巨大赌注只是众多LLM的方向之一。
在开源领域,HuggingFace已成为开发者训练自己的模型或微调现有模型的首选平台。除了Stability的开源产品外,HuggingFace还支持最新的先进模型,如Facebook的LLaMA和斯坦福大学的Alpaca。
总结
本文主要介绍了两个工作,一个是research agent,用于研究想法生成,不过依赖chatgpt来完成的实验,但思路值得借鉴。另一个是关于AI top50的榜单推荐,我们可以从中看到大致的商业化趋势。
参考文献
1、https://www.sequoiacap.com/article/ai-50-2024/
2、https://arxiv.org/pdf/2404.07738
关于我们
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。
更多AI工具,参考Github-AiBard123,国内AiBard123