AI 文摘

大模型智能体Agent(1):20239复旦版综述





作者: AI采英 来源: AI采英

原文:

https://arxiv.org/abs/2309.07864

“The Rise and Potential of Large Language Model Based Agents:

A Survey”

截至24.4.15,Google学术引用量:

开篇引用Diderot 在1875年说的:

“If they find a parrot who could answer to everything, I would claim it to be an intelligent being without hesitation.”

(如果他们找到一个能对一切都作出回答的鹦鹉,我会毫不犹豫地宣称它是一个智能生物。)

这是在定义,无所不能即为“智能”

有趣的是:

在朱松纯教授的文章里,鹦鹉智能反而是对照物,来说明乌鸦才是有真智能的。鹦鹉只是机械性重复。

朱教授在2017年,有深入讨论过,见:

https://mp.weixin.qq.com/s?__biz=MzI3MTM5ODA0Nw==&mid=2247484058&idx=1&sn=0dfe92a0991294afba2514b137217a66&scene=21#wechat_redirect

Figure 1:Agent未来畅想图

在厨房里,一个代理点菜,而另一个代理负责计划和解决烹饪任务。在演唱会上,三位经纪人正在合作组成乐队表演。在户外,两位特工正在讨论灯笼制作、规划所需材料以及通过选择和使用工具进行财务筹措。

####一、简述

历史上的5种Agent

1.1 Symbolic Agents.

依赖于符号逻辑[56; 57]。

这种方法采用逻辑规则和符号表示来封装知识并促进推理过程。早期的人工智能代理就是基于这种方法构建的[ 58 ],它们主要关注两个问题:转导问题和表征/推理问题 [ 59 ]。

这些智能体旨在模仿人类的思维模式。他们拥有明确和可解释的推理框架,并且由于其象征性,它们表现出高度的表达能力[13;14;60]。

典型例子是基于知识的专家系统。

问题:

1、在处理不确定性和大规模现实世界问题方面面临局限性[19 ; 20]。

2、由于符号推理算法的复杂性,要找到一种能够在有限时间范围内产生有意义的结果的高效算法具有挑战性[20 ; 61]。

1.2 Reactive agents

与符号代理不同,反应式代理不使用复杂的符号推理。相反,它们主要关注智能体与其环境之间的相互作用,强调快速和实时的响应[15;16;20;62;63]。

这些智能体主要基于感知-行为循环,有效地感知环境并做出反应。

这种智能体的设计优先考虑直接的输入-输出映射,而不是复杂的推理和符号操作 [ 52 ]。

优势是:需要更少的计算资源,从而实现更快的响应;

问题是:缺乏复杂的更高级别的决策和规划能力。

1.3 RL

主要关注点是:如何使智能体通过与环境的交互来学习,使他们能够在特定任务中获得最大的累积奖励 [ 21 ]。

最初,强化学习(RL)智能体主要基于策略搜索和值函数优化等基本技术,例如Q-learning[66]和SARSA[67]。取得了许多重大成就,如AlphaGo [ 70 ] 和 DQN [ 71]。

优势在于它能够使智能体能够在未知环境中自主学习,而无需明确的人为干预。它能够广泛应用于从游戏到机器人控制等一系列领域。

问题是:强化学习仍面临训练时间长、样本效率低和稳定性问题。智能体需要巨大的样本量和较长的训练时间,并且缺乏泛化能力 [ 72 ; 73 ; 74 ; 75 ; 76 ]

1.4 transfer learning and meta learning

元学习侧重于学习如何学习,使智能体能够从少量样本中快速推断出新任务的最优策略 [ 85 ] 。当面临新任务时,这样的智能体可以通过利用获得的一般知识和策略来快速调整其学习方法,从而减少对大量样本的依赖。

问题是:

1、当源任务和目标任务之间存在显著差异时,迁移学习的有效性可能达不到预期,可能存在负迁移[86;87]。

2、元学习需要大量的预训练和大样本量,因此很难建立一个普遍的学习策略[81,88]。

1.5 LLM的

使用LLM作为大脑的主要组成部分或这些代理的控制者,并通过多模态感知和工具利用等策略扩展其感知和行动空间[90;91;92;93;94]。

这些基于LLM的智能体可以通过思维链(CoT)和问题分解等技术表现出与符号智能体相当的推理和规划能力[95;96;97;98;99;100;101]。

他们还可以通过从反馈中学习和执行新操作来获得与环境的交互能力,类似于反应式代理 [ 102 ; 103 ; 104 ]。

大型语言模型在大规模语料库上进行预训练,并展示了少样本和零样本泛化的能力,允许在任务之间无缝转移,而无需更新参数 [ 41; 105; 106 ; 107 ]。

LLM为基础的Agent,优势是:

1.Autonomy自主

在没有人类或他人直接干预的情况下运行,并对其行为和内部状态具有一定程度的控制[4;113]。

LLM可以通过生成类似人类的文本、参与对话和执行各种任务的能力来展示一种自治形式,而无需详细的分步说明[114;115]。

此外,它们可以根据环境输入动态调整其输出,反映出一定程度的适应自主性[ 23 ; 27 ; 104 ]。

可以通过展示创造力来展示自主性,例如提出尚未明确编程的新想法、故事或解决方案 [ 116 ; 117 ]。这意味着一定程度的自我导向探索和决策

2.Reactivity反应

可以感知到周围环境的变化并迅速采取适当的行动。

使用多模态融合技术扩展LLM感知空间的潜力,使它们能够快速处理来自环境的视觉和听觉信息[25;118;119]。

挑战是,基于 LLM 的代理在执行非文本操作时,需要中间步骤以文本形式生成想法或制定工具用法,然后才能最终将它们转化为具体操作。这种中间过程会消耗时间并降低响应速度。

  1. Pro-activeness

强调Agent可以在其行动中推理、制定计划并采取积极措施以实现特定目标或适应环境变化。

尽管从直观上看,LLM中下一个标记预测的范式可能不具有意图或愿望,但研究表明,它们可以隐式生成这些状态的表示,并指导模型的推理过程[46;48;49]。

LLMs已经表现出很强的广义推理和规划能力。通过用“让我们一步一步地思考”这样的指令提示大型语言模型,我们可以引出他们的推理能力,如逻辑和数学推理 [ 95 ; 96 ; 97 ]。

大型语言模型也显示了以目标重新制定[99;124]、任务分解[98;125]和根据环境变化调整计划[100;126]的形式进行规划的涌现能力。

  1. Social ability

通过某种智能体交流语言与其他智能体(包括人类)互动的能力[8]。

大型语言模型表现出很强的自然语言交互能力,如理解和生成[23;127;128]。

通过输入特定的提示,LLM也可以扮演不同的角色,从而模拟现实世界中的社会分工[109]。

当我们将具有不同身份的多个主体置于一个社会中时,可以观察到涌现的社会现象[22]。

####二、Agent组成

Figure 2:LLM-based Agent基本框架

三大部分:

  • 大脑:作为控制器,大脑模块承担记忆、思考和决策等基本任务。

  • 感知:感知模块感知和处理来自外部环境的多模态信息,

  • 行动:动作模块使用工具执行并影响周围环境。

从上可以看出,复旦这篇综述,是按“输入/感知->决策/LLM->输出/Action”这样的基本范式,去构建的。

这里我们举一个例子来说明工作流程:当人类询问是否会下雨时,

  1. 感知模块会将指令转换为 LLM 的可理解表示。

  2. 然后大脑模块开始根据当前的天气和互联网上的天气预报进行推理。

  3. 最后,动作模块做出响应,将雨伞交给人类。

通过重复上述过程,代理可以不断获得反馈并与环境交互。

####2.1 Brain大脑

Figure 3:

1、语言交互

2、知识

三类知识:

• 语言知识。语言知识 [ 142 ; 143 ; 144 ] 被表示为一个约束系统,一种语法,它定义了语言的所有可能的句子。它包括形态学、句法、语义学[145;146]和语用学。只有获得语言知识的智能体才能理解句子并进行多轮对话[147]。此外,这些智能体可以通过在包含多种语言的数据集上进行训练来获得多语言知识 [ 132 ],从而消除了对额外翻译模型的需求。

• 常识性知识。常识性知识[148;149;150]是指通常在很小的时候就教给大多数人的一般世界事实。例如,人们通常知道药物是用来治病的,而雨伞是用来防雨的。此类信息通常不会在上下文中明确提及。因此,缺乏相应常识知识的模型可能无法理解或误解预期的含义[141]。同样,没有常识知识的代理人可能会做出错误的决定,例如在大雨中不带雨伞。

• 专业领域知识。专业领域知识是指与特定领域相关的知识,如编程[151;154;150]、数学[152]、医学[153]等。模型必须有效地解决特定领域内的问题 [ 223 ]。例如,设计用于执行编程任务的模型需要具备编程知识,例如代码格式。同样,用于诊断目的的模型应具备医学知识,例如特定疾病和处方药的名称。

3、Memory

• 更长Long Context:解决或减轻固有的序列长度约束。由于这些固有限制,Transformer 架构在处理长序列时会遇到困难。随着序列长度的扩展,由于自注意力机制中的成对标记计算,计算需求呈指数级增长。减轻这些长度限制的策略包括文本截断 [ 163 ; 164 ; 232]、分割输入 [ 233 ; 234 ] 和强调文本的关键部分 [ 235 ; 236 ; 237 ]。其他一些工作修改了注意力机制以降低复杂性,从而适应更长的序列[238;165;166;167]。

• 总结记忆:使用提示,一些方法简洁地整合了记忆[168];另一些方法则强调反思过程以创建浓缩的记忆表征[22;239]。分层方法将对话简化为每日快照和总体摘要 [ 170 ]。值得注意的是,具体的策略将环境反馈转化为文本封装,增强了代理人对未来参与的情境把握 [ 169 ]。此外,在多智能体环境中,智能体通信的重要元素被捕获并保留[171]。

• 使用向量或数据结构压缩存储器:通过采用合适的数据结构,智能代理可以提高内存检索效率,从而促进对交互的快速响应。值得注意的是,有几种方法依赖于嵌入记忆部分、计划或对话历史的向量 [ 109 ; 170 ; 172 ; 174 ]。另一种方法是将句子翻译成三元组结构[ 173 ],而一些人则将记忆视为一个独特的数据对象,促进了各种交互 [ 176 ]。此外,ChatDB [ 175 ] 和 DB-GPT [240 ] 将 LLMrollers 与 SQL 数据库集成,支持通过 SQL 命令进行数据操作。

4、Reasoning&Planning

计划的两个阶段:

• 计划制定。通常会将一个总体任务分解为许多子任务,并且在此阶段提出了各种方法。

一些著作主张基于LLM的智能体一次性全面分解问题,一次性制定一个完整的计划,然后依次执行[98;179;255;256]。

其他研究,如CoT系列,采用自适应策略,他们一次计划和解决一个子任务,从而在处理复杂的任务时更加流畅[95;96;257]。

此外,一些方法强调分层规划[182;185],而另一些方法则强调一种策略,其中最终计划来自以树状格式构建的推理步骤。

• 计划反思。

基于LLM的智能体利用内部反馈机制,通常从预先存在的模型中汲取见解,以磨练和增强其策略和规划方法[169;178;188;192]。

为了更好地与人类的价值观和偏好保持一致,智能体积极地与人类接触,使他们能够纠正一些误解,并将这种量身定制的反馈吸收到他们的规划方法中[108;189;190]。

此外,他们可以从有形或虚拟的环境中汲取反馈,例如任务完成或行动后观察的线索,帮助他们修改和完善他们的计划[91,101;187;191;260]。

5、迁移泛化

####2.2 Perception感知

Figure 4:

####2.3 Action行动

Figure 5:

1、Tools

2、Embodied具身智能

什么是具身智能?

智能体(如机器人、虚拟代理等)能够通过与物理世界的直接交互,来感知环境、进行推理、做出决策并执行动作的能力。

这种智能体不仅仅是在虚拟环境中运作,而是能够理解和影响真实世界的物理状态。
具身智能的核心特点包括:

  1. 感知能力:智能体能够通过传感器(如摄像头、麦克风、触觉传感器等)感知周围环境,获取关于物体、空间和动态的信息。

  2. 动作能力:智能体能够通过执行器(如机械臂、轮子、扬声器等)在物理世界中进行操作,如抓取物体、移动位置、发出声音等。

  3. 环境交互:智能体能够与环境进行实时互动,根据环境的变化调整自己的行为,以适应不同的情境和任务。

  4. 学习和适应:智能体能够通过学习和经验积累来改进自己的行为,更好地适应环境和完成复杂的任务。

  5. 决策和推理:智能体能够进行复杂的决策和推理,解决在物理世界中遇到的问题,如导航、操控物体、与人类或其他智能体交流等。

####三、Agent-实践

Figure 7:Agent应用,有几种范式

  • 单个智能体具有多种能力,可以在各种应用方向上表现出出色的任务解决能力。

  • 当多个智能体相互作用时,它们可以通过合作或对抗互来实现进步。

  • 在人机交互中,人机交互可以使机体更高效、更安全地执行任务,同时机体还可以为人类提供更好的服务。

Figure 6:本节提纲

####3.1 Single单智能体

Figure 8:Single Agent

  • 在面向任务的部署中,代理协助人类用户解决日常任务。他们需要具备基本的指令理解和任务分解能力。

  • 在以创新为导向的部署中,智能体展示了在科学领域自主探索的潜力。

  • 在面向生命周期的部署中,智能体能够不断探索、学习和利用新技能,以确保在开放世界中长期生存。

####3.2 Multi多智能体

Figure 9:Multi-Agent

协作:在合作互动中,智能体以无序或有序的方式进行协作,以实现共同目标。

对抗:在对抗性交互中,智能体以针锋相对的方式竞争,以提高各自的绩效。(“对抗”也是一种博弈相容,对抗不是崩坏)

####3.3 人-智能体

Figure 10:人机交互的两种范式。

中心化:在指导者-执行者范式(左)中,人类提供指令或反馈,而代理人则充当执行者。

去中心:在平等伙伴关系范式(右)中,智能体与人类相似,能够进行移情对话并参与与人类的协作任务。

####四、Agent-社会

Figure 11:

Figure 12:模拟智能体社会概述。

整个框架分为两部分:代理和环境。从这张图中我们可以观察到:

(1)左:在个体层面上,智能体表现出内化行为,如计划、推理和反思。它还表现出涉及认知、情感和性格的内在人格特征。

(2)中:一个智能体和其他智能体可以组成群体,表现出群体行为,如合作。

(3)权利:环境,无论是虚拟的还是物理的,都包含人类行为者和所有可用的资源。对于单个代理,其他代理也是环境的一部分。

(4)智能体具有通过感知和行动与环境互动的能力。

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具