长久以来,人类一直在追求等同或超越人类的人工智能,而 AI 代理被认为是实现这一追求的有效手段。agent
是能够感知环境、做出决策并采取行动的人工智能实体。自 20 世纪中期以来,人们已经为开发 AI 代理做出了许多努力。然而,这些努力主要集中在算法或训练策略的进步上,以增强特定任务上的特定能力或表现。实际上,我们所缺乏的是一个充分且强大的模型,来作为开发可适应各种不同场景的 AI 代理的基础。具有多样且卓越能力的大语言模型,则被视为通向通用人工智能的必经之路,也为构建通用 AI 代理提供了希望。我们看到,许多利用大语言模型为基础来构建 AI 代理的研究,取得了显著进展。本篇论文,我们将从代理的概念开始,从其哲学起源到其在人工智能领域的发展,并解释为什么大语言模型适合作为 AI 代理的基础。在此之上,我们为基于大语言模型的 AI 代理提供了一个概念框架
,包括三个部分:大脑、感知和行动,这个框架可以根据不同的应用进行定制。接着,我们探索了 AI 代理在三个场景的广泛应用:单一代理、多个代理和人机合作。之后,我们深入研究了 AI 代理社会,探索了 AI 代理的行为属性,以及它们形成社会时出现的现象。最后,我们讨论了该领域内的一系列关键主题和开放性问题。
人工智能(AI)是一个致力于设计和开发可以复制类人智能和能力的系统的领域 [1]。早在 18 世纪,哲学家 Denis Diderot 就提出了这样的想法:如果一只鹦鹉能够回答所有问题,那么它就可以被认为是智能的 [2]。虽然 Diderot 指的是鹦鹉等生物,但他的概念强调了一个深刻的概念,即高度智能的有机体可能类似于人类的智能。 20 世纪 50 年代,Alan Turing 将这一概念扩展到人造实体,并提出了著名的图灵测试 [3]。该测试是人工智能的基石,旨在探索机器是否能够表现出与人类相媲美的智能行为。这些人工智能实体通常被称为 “代理”,构成人工智能系统的基本构建块。通常在人工智能中,代理
是指能够使用传感器感知周围环境、做出决策,然后使用执行器采取响应行动的人工实体 [1; 4]。
主体
的概念起源于哲学,其根源可以追溯到亚里士多德和休谟等思想家 [5]。它描述了拥有欲望、信念、意图和采取行动的能力的实体 [5]。这个想法转变为计算机科学,旨在使计算机能够理解用户的兴趣并代表他们自主执行操作 [6; 7; 8]。随着人工智能的发展,代理
一词在人工智能研究中找到了自己的位置,用来描述展示智能行为并拥有自主性、反应性、主动性和社交能力等品质的实体 [4; 9]。从那时起,智能体的探索和技术进步就成为人工智能界的焦点 [1; 10]。人工智能代理现在被认为是实现通用人工智能 (AGI) 的关键一步,因为它们包含了广泛的智能活动的潜力 [4; 11; 12]。
从 20 世纪中叶开始,随着在智能 AI 代理的设计和进步方面研究的深入,在开发智能 AI 代理方面取得了重大进展 [13; 14; 15; 16; 17; 18]。然而,这些努力主要集中在增强特定能力,例如符号推理,或掌握围棋或国际象棋等特定任务 [19; 20; 21]。实现跨不同场景的广泛适应性仍然难以实现。此外,以往的研究更加注重算法和训练策略的设计,忽视了模型固有的通用能力的发展,如知识记忆、长期规划、有效泛化和高效交互等 [22; 23]。实际上,增强模型的内在能力是智能体进一步发展的关键因素,该领域需要一个强大的基础模型,该模型具有上述各种关键属性,作为智能体系统的起点。
大语言模型(LLMs)的发展为智能体的进一步发展带来了一线希望 [24; 25; 26],并且在社区已经取得了重大进展 [22; 27; 28; 29]。根据世界范围(WS)[30] 的概念,它包括五个层次,描述了从 NLP 到通用人工智能(即语料库,互联网,感知,体现和社会)的研究进展,纯 LLM 建立在具有互联网规模文本输入和输出的第二级。尽管如此,LLM 在知识获取、指令理解、泛化、规划和推理方面表现出了强大的能力,同时展示了与人类有效的自然语言交互。这些优势为 LLM 赢得了 AGI 火花的称号 [31],使它们非常适合构建智能代理,以培育一个人类与代理和谐共存的世界 [22]。以此为起点,如果我们将 LLM 提升到代理人的地位,并为他们配备扩展的感知空间和行动空间,他们就有可能达到 WS 的第三和第四层次。此外,这些基于 LLM 的智能体可以通过合作或竞争来处理更复杂的任务,并且将它们放在一起时可以观察到新兴的社会现象,有可能达到第五个 WS 级别。如图 1 所示,我们设想一个由人工智能体组成的和谐社会,人类也可以参与其中。
图 1:描绘了一个由智能体组成的设想社会的场景,人类也可以参与其中。上图描绘了社会中的一些具体场景。在厨房里,一个代理正在点餐,而另一个代理负责计划和解决烹饪任务。在音乐会上,三个代理正在协作表演乐队。在户外,两个代理正在讨论制作灯笼,通过选择和使用工具来计划所需的材料和财务。用户可以参与这些社交活动的任何阶段。
在本文中,我们提出了一项针对 LLM 代理的全面、系统的调查,试图调查这一新兴领域的现有研究和前瞻性途径。 为此,我们首先深入研究关键的背景信息(§ 2)。 特别是,我们首先从哲学到人工智能领域追溯人工智能主体的起源,并简要概述围绕人工智能主体存在的争论(第 2.1 节)。 接下来,我们从技术趋势的角度对 AI 代理的发展进行简明的历史回顾(第 2.2 节)。 最后,我们深入介绍了智能体的基本特征,并阐明了为什么大型语言模型非常适合作为 AI 智能体的大脑或控制器的主要组成部分(第 2.3 节)。
受智能体定义的启发,我们提出了基于 LLM 的智能体的一般概念框架
,包括三个关键部分:大脑、感知和行动(§ 3),并且该框架可以根据不同的应用进行定制。我们首先介绍大脑,它主要由一个大的语言模型组成(第 3.1 节)。与人类类似,大脑是人工智能体的核心,因为它不仅存储重要的记忆、信息和知识,而且承担信息处理、决策、推理和规划的基本任务。它是智能体能否表现出智能行为的关键决定因素。接下来,我们介绍感知模块(第 3.2 节)。对于智能体来说,这个模块的作用类似于人类的感觉器官。其主要功能是将智能体的感知空间从纯文本扩展到多模态空间,其中包括文本、声音、视觉、触觉、气味等多种感官模式。这种扩展使智能体能够更好地感知来自外部环境的信息。最后,我们提出了用于扩展代理动作空间的动作模块(第 3.3 节)。具体来说,我们期望智能体能够拥有文本输出、采取具体行动并使用工具,以便更好地响应环境变化并提供反馈,甚至改变和塑造环境。
之后,我们对基于 LLM 的智能体的实际应用进行了详细而透彻的介绍,并阐明了基本的设计追求——善用人工智能
(§ 4)。首先,我们深入研究单个智能体的当前应用并讨论它们在基于文本的任务和模拟探索环境中的表现,重点讨论它们在处理特定任务、推动创新以及展示类人生存技能和适应能力方面的能力(§ 4.1)。接下来,我们进行回顾,我们介绍了基于 LLM 的多智能体系统应用中智能体之间的交互,它们进行协作、协商或竞争。无论交互方式如何,智能体都会共同努力实现一个共同的目标( § 4.2)。最后,考虑到基于 LLM 的代理在隐私安全、道德约束和数据缺陷等方面的潜在局限性,我们讨论了人与代理的协作。我们总结了代理与人类之间的协作范式:指导者- 执行者范式和平等伙伴关系范式,以及实践中的具体应用(§ 4.3)。
基于对基于 LLM 的智能体实际应用的探索,我们现在将重点转向智能体社会
的概念,研究智能体与其周围环境之间复杂的相互作用(§ 5)。本节首先调查这些智能体是否表现出类人行为并具有相应的个性(第 5.1 节)。此外,我们还介绍了代理运行的社交环境,包括基于文本的环境、虚拟沙箱和物理世界(§5.2)。与上一节(第 3.2 节)不同,这里我们将关注不同类型的环境,而不是智能体如何感知环境。建立了智能体及其环境的基础后,我们继续揭示它们形成的模拟社会(§5.3)。我们将讨论模拟社会的构建,并继续研究从中出现的社会现象。具体来说,我们将强调模拟社会固有的教训和潜在风险。
最后,我们讨论了基于 LLM 的智能体领域内的一系列关键主题(第 6 节)和开放性问题:(1)LLM 研究和智能体研究的互惠互利和启发,我们证明基于 LLM 的智能体的发展为智能体和 LLM 社区提供了许多机会(§ 6.1);(2) 从实用性、社交性、价值观和不断发展的能力四个维度对 LLM 智能体的现有评估工作和一些前景(§ 6.2);(3)基于 LLM 的智能体的潜在风险,我们讨论基于 LLM 的智能体的对抗稳健性和可信度。我们还讨论了其他一些风险,例如滥用、失业和对人类福祉的威胁(第 6.3 条);(4) 扩大智能体数量,我们讨论扩大智能体数量的潜在优势和挑战,以及静态和动态扩展的方法(第 6.4 节);(5) 几个悬而未决的问题,例如关于基于 LLM 的智能体是否代表通向 AGI 的潜在路径的争论、从虚拟模拟环境到物理环境的挑战、AI 代理中的集体智能以及代理即服务(§ 6.5)。毕竟,我们希望这篇论文能为相关领域的研究人员和实践者提供启发。
在本节中,我们提供重要的背景信息,为后续内容奠定基础(第 2.1 节)。我们首先讨论 AI 代理的起源,从哲学到人工智能领域,并讨论有关 AI 代理存在的论述(第 2.2 节)。随后,我们从技术趋势的角度总结了 AI 代理的发展。最后,我们介绍了代理的关键特征,并论证了为什么 LLM 适合作为 AI 代理大脑的主要部分(第 2.3 节)。
Agent
是一个有着悠久历史的概念,在很多领域都得到了探索和诠释。在此,我们首先探讨其哲学渊源,讨论人工产品能否具有哲学意义上的能动性,并考察相关概念是如何被引入人工智能领域的。
哲学代理。Agent 的核心思想在哲学讨论中具有历史背景,其根源可以追溯到亚里士多德和休谟等有影响力的思想家 [5]。一般意义上,“agent” 是具有行为能力的实体,“agency” 一词表示这种能力的行使或表现 [5]。狭义上的 “agency” 通常指有意识的行为的表现;相应地,术语 “agent” 表示拥有欲望、信念、意图和行动能力的实体 [32; 33; 34; 35]。请注意,代理不仅可以涵盖个人,还可以涵盖物理和虚拟世界中的其他实体。重要的是,代理的概念涉及个体自主权,赋予他们行使意志、做出选择和采取行动的能力,而不是被动地对外部刺激做出反应。
从哲学的角度来看,人造实体是否具有代理能力?一般来说,如果我们将代理定义为具有行动能力的实体,那么人工智能系统确实表现出一种代理形式 [5]。然而,“agent” 一词更常用于指代具有意识、意向性和行动能力的实体或主体 [32; 33; 34]。在这个框架内,目前还不清楚人工系统是否可以拥有代理,因为仍然不确定它们是否拥有构成欲望、信仰和意图基础的内部状态。有些人认为,将意图等心理状态归因于人工智能是拟人化的一种形式,缺乏科学严谨性 [5; 36]。正如 Barandiaran 等人 [36] 指出,“具体到代理的要求告诉我们很多关于发展人工代理形式还需要多少努力。” 相比之下,也有研究人员认为,在某些情况下,采用意向立场(即根据意图解释代理行为)可以更好地描述、解释和抽象人工代理的行为,就像为人类所做的那样 [11; 37; 38]。
随着语言模型的进步,人工意向代理的潜在出现显得更有希望 [24; 25; 39; 40; 41]。从严格意义上来说,语言模型仅仅起到条件概率模型的作用,使用输入来预测下一个标记 [42]。与此不同的是,人类结合了社会和感知环境,并根据自己的心理状态说话 [43; 44]。因此,一些研究人员认为当前的语言建模范式与代理的有意行为不兼容 [30; 45]。然而,也有研究人员提出,狭义上的语言模型可以作为代理的模型 [46; 47]。他们认为,在基于上下文的下一个单词预测过程中,当前的语言模型有时可以推断出生成上下文的代理所持有的信念、愿望和意图的近似、部分表示。有了这些表示,语言模型就可以像人类一样生成话语。为了支持他们的观点,他们进行了实验来提供一些经验证据 [46; 48; 49]。
将代理引入人工智能。令人惊讶的是,直到 20 世纪 80 年代中后期,主流人工智能社区的研究人员对与代理相关的概念投入的注意力相对较少。尽管如此,从那时起,计算机科学和人工智能领域对这个主题的兴趣显著增加 [50; 51; 52; 53]。正如伍德里奇等人 [4] 指出,我们可以这样定义人工智能:它是计算机科学的一个子领域,旨在设计和构建基于计算机的代理,以展示智能行为的各个方面。因此我们可以将 “agent” 视为人工智能的核心概念。当 agent 的概念被引入人工智能领域时,它的含义发生了一些变化。在哲学领域,agent 可以是人、动物,甚至是具有自主性的概念或实体 [5]。然而,在人工智能领域,agent 是一个计算实体 [4; 7]。由于意识和计算实体的欲望等概念看似形而上学的本质 [11],并且考虑到我们只能观察机器的行为,包括艾伦·图灵在内,建议暂时搁置代理是否 “actually” 思考或确实拥有 “mind” 的问题 [3]。相反,研究人员采用其他属性来帮助描述代理,例如自主性、反应性、主动性和社交能力的属性 [4; 9]。也有研究人员认为,智力是 “情人眼里出西施”。它不是一种与生俱来的、孤立的属性 [15; 16; 54; 55]。从本质上讲,AI 代理并不等同于哲学代理;相反,它是人工智能背景下代理哲学概念的具体化。在本文中,我们将 AI 代理视为人工实体,能够使用传感器感知周围环境,做出决策,然后使用执行器采取响应行动 [1; 4]。
AI 代理的演进经历了几个阶段,这里我们从技术趋势的角度来简单回顾一下它的发展。
Symbolic Agents。在人工智能研究的早期阶段,使用的主要方法是符号人工智能,其特点是依赖符号逻辑 [56; 57]。这种方法采用逻辑规则和符号表示来封装知识并促进推理过程。早期人工智能代理是基于这种方法构建的 [58],它们主要关注两个问题:转导问题和表示/推理问题 [59]。这些代理旨在模拟人类思维模式。它们拥有明确且可解释的推理框架,并且由于其符号性质,它们表现出高度的表达能力 [13; 14; 60]。这种方法的一个典型例子是基于知识的专家系统。然而,符号代理在处理不确定性和大规模现实问题时面临局限性 [19; 20]。此外,由于符号推理算法的复杂性,找到一种能够在有限的时间范围内产生有意义的结果的有效算法具有挑战性 [20; 61]。
Reactive agents。与符号代理不同,反应代理不使用复杂的符号推理。相反,他们主要关注代理与其环境之间的交互,强调快速和实时的响应 [15; 16; 20; 62; 63]。这些代理主要基于感知-行为循环,有效感知环境并对环境做出反应。此类代理的设计优先考虑直接输入输出映射,而不是复杂的推理和符号操作 [52]。然而,反应性代理也有局限性。它们通常需要更少的计算资源,从而能够更快地做出响应,但它们可能缺乏复杂的更高级别的决策和规划能力。
Reinforcement learning-based agents。随着计算能力和数据可用性的提高,以及对模拟智能代理与其环境之间的交互的兴趣日益浓厚,研究人员已经开始利用强化学习方法来训练代理来处理更具挑战性和复杂的任务 [17; 18; 64; 65]。该领域主要关注的是如何使代理能够通过与环境的交互来学习,使他们能够在特定任务中获得最大的累积奖励 [21]。最初,强化学习(RL)代理主要基于策略搜索和价值函数优化等基本技术,例如 Q-learning [66] 和 SARSA [67]。随着深度学习的兴起,深度神经网络和强化学习的集成,即深度强化学习(DRL)的出现 [68; 69]。这使得代理能够从高维输入中学习复杂的策略,从而取得许多重大成就,例如 AlphaGo [70] 和 DQN [71]。这种方法的优点在于它能够使代理在未知环境中自主学习,而无需明确的人工干预。这使其能够广泛应用于从游戏到机器人控制等一系列领域。尽管如此,强化学习面临着训练时间长、样本效率低和稳定性问题等挑战,特别是在复杂的现实环境中应用时 [21]。
Agents with transfer learning and meta learning。传统上,训练强化学习代理需要巨大的样本量和较长的训练时间,并且缺乏泛化能力 [72; 73; 74; 75; 76]。因此,研究人员引入了迁移学习来加速代理对新任务的学习 [77; 78; 79]。迁移学习减轻了新任务的训练负担,促进知识在不同任务之间的共享和迁移,从而提高学习效率、性能和泛化能力。此外,元学习也被引入人工智能代理中 [80; 81; 82; 83; 84]。元学习专注于学习如何学习,使代理能够从少量样本中快速推断出新任务的最佳策略 [85]。这样的代理在面临新任务时,可以利用所获得的常识和策略快速调整其学习方法,从而减少对大量样本的依赖。然而,当源任务和目标任务之间存在显着差异时,迁移学习的有效性可能达不到预期,并且可能存在负迁移 [86; 87]。此外,元学习所需的大量预训练和大样本量使得很难建立通用的学习策略 [81; 88]。
Large language model-based agents。由于大型语言模型已经表现出令人印象深刻的涌现能力并获得了巨大的欢迎 [24; 25; 26; 41],研究人员已经开始利用这些模型来构建 AI 代理 [22; 27; 28; 89 ]。具体来说,他们采用 LLMs 作为这些代理的大脑或控制器的主要组成部分,并通过多模态感知和工具利用等策略扩展其感知和行动空间 [90; 91; 92; 93; 94]。这些基于 LLM 的代理可以通过思想链 (CoT) 和问题分解等技术展现出与符号代理相当的推理和规划能力 [95; 96; 97; 98; 99; 100; 101]。他们还可以通过从反馈中学习并执行新动作来获得与环境的交互能力,类似于反应代理 [102; 103; 104]。类似地,大型语言模型在大规模语料库上进行预训练,并展示了少样本和零样本泛化的能力,允许任务之间无缝传输,无需更新参数 [41; 105; 106; 107]。基于LLM 的代理已应用于各种现实场景,例如软件开发 [108; 109] 和科学研究 [110] 。由于它们的自然语言理解和生成能力,它们可以无缝地相互交互,从而引起多个代理之间的协作和竞争 [108; 109; 111; 112]。此外,研究表明,允许多个代理共存可以导致社会现象的出现 [22]。
如前所述,研究人员引入了一些属性来帮助描述和定义人工智能领域的代理。在这里,我们将深入研究一些关键属性,阐明它们与 LLM 的相关性,从而阐述为什么 LLM 非常适合作为 AI 代理大脑的主要部分。
Autonomy。自主性意味着代理的运行无需人类或其他人的直接干预,并且对其行为和内部状态拥有一定程度的控制 [4; 113]。这意味着代理不仅应该具备遵循明确的人类指令来完成任务的能力,而且还应该具有独立启动和执行操作的能力。LLMs 可以通过生成类人文本、参与对话以及执行各种任务的能力来展示某种形式的自主性,而无需详细的分步说明 [114; 115]。此外,它们可以根据环境输入动态调整其输出,反映了一定程度的自适应自主性 [23; 27; 104]。此外,他们可以通过展示创造力来展示自主性,例如提出尚未明确编程的新颖想法、故事或解决方案 [116; 117]。这意味着一定程度的自我探索和决策。像 Auto-GPT [114] 这样的应用程序例证了 LLMs 在构建自主代理方面的巨大潜力。只需为他们提供一项任务和一组可用工具,他们就可以自主制定计划并执行以实现最终目标。
Reactivity。主动性意味着代理不仅仅对他们的环境做出反应;他们有能力通过主动采取主动来展示以目标为导向的行动 [9]。这意味着代理可以感知周围环境的变化并立即采取适当的行动。传统上,语言模型的感知空间仅限于文本输入,而动作空间仅限于文本输出。然而,研究人员已经证明了使用多模态融合技术扩展 LLMs 感知空间的潜力,使他们能够快速处理来自环境的视觉和听觉信息 [25; 118; 119]。同样,通过实施技术扩展 LLMs 的行动空间 [120; 121] 和工具使用 [92; 94] 也是可行的。这些进步使 LLMs 能够有效地与现实世界的物理环境交互并在其中执行任务。一个主要的挑战是,基于 LLM 的代理在执行非文本操作时,需要一个中间步骤,即以文本形式生成想法或制定工具使用方法,然后才能最终将其转化为具体操作。这个中间过程会消耗时间并降低响应速度。然而,这与人类行为模式密切相关,遵循 “先思考后行动” 的原则 [122; 123]。
Pro-activeness。主动性意味着代理不仅对环境做出反应;他们有能力通过主动采取行动来表现出以目标为导向的行动 [9]。该属性强调代理在行动中能够推理、制定计划并采取主动措施,以实现特定目标或适应环境变化。尽管直观上 LLMs 中下一个令牌预测的范式可能没有意图或愿望,但研究表明它们可以隐式生成这些状态的表示并指导模型的推理过程 [46; 48; 49]。LLMs 已表现出强大的广义推理和规划能力。通过用 “让我们一步一步思考” 这样的指令来提示大型语言模型,我们可以引出它们的推理能力,例如逻辑和数学推理 [95; 96; 97]。同样,大型语言模型也显示出以目标重新制定 [99; 124]、任务分解 [98; 125] 和根据环境变化调整计划的形式进行规划的涌现能力。
Social ability。社交能力是指代理通过某种代理交流语言与包括人类在内的其他代理进行交互的能力 [8]。大型语言模型表现出强大的自然语言交互能力,例如理解和生成 [23; 127; 128 ]。与结构化语言或其他通信协议相比,这种能力使它们能够以可解释的方式与其他模型或人类进行交互。这构成了基于 LLM 的代理的社交能力的基石 [22; 108]。许多研究人员已经证明基于 LLM 的代理可以通过协作和竞争等社会行为来增强任务绩效[108; 111; 129; 130]。通过输入特定的提示,LLM 也可以扮演不同的角色,从而模拟现实中的社会分工世界[109]。此外,当我们将多个具有不同身份的代理放入一个社会时,可以观察到新兴的社会现象 [22]。
智能体
【参考】