今天分享的AI Agent系列深度研究报告:《AI Agent行业报告:框架拆解、应用方向、应用领域及相关公司深度梳理》。
(报告出品方:慧博智能投研)
报告共计:34页
1、Al Agent 概念
AIAgent人工代是一种够感知不同传统的人工智能,AIAgent 具备通过独立思考、调用工具去逐步完成给定目标的能力。比如,告诉 AIAgent 帮忙下单一份外卖,它就可以直接调用 APP 选择外卖,再调用支付程序下单支付,无需人类去指定每一步的操作。
2、Al Agent 对比其它人类与 AI 协同模式的区别
AI Agent 较目前广泛使用的 Copilot 式更加独立。对比AI 与人类的交模式,目前已从过去的入式工具型 AI(例如 Siri)向助理型 AI发展,目前的各类 AI Copilot 不再是机械地完成人类指令,而是可以参与人类工作流,为诸如编写代码、策划活动、优化流程等事项提供建议,与人类协同完成。而AIAgent 的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动,它会根据给定任务详细折解出每一步的计划步骤,依靠来自外界的反馈和自主思考,自己给自己创建 prompt,来实现目标。如果说 Copilot 是“副驾驶”,那么 Agent 则可以算得上一个初级的“主驾驶”。
3、Agent 的最终发展目标为“通用人工智能 AGI”
AI Agent 并不是一个新兴的念,早在多前就已在人工能领域有了研究。例如 2014 年由DeepMind 推出的引发全球热议的围棋机器人 AlphaGo,也可以看做是 AI Agent 的一种。与之类似的还有 2017年 OpenAI推出的用于玩《Dota2》的 OpenAI Five,20g 年 DeepMind 公布用于玩《星际争霸2》的 AIphaStar 等,这些 AI 都能根据对实时接收到的信息的分析来安排和规划下一步的操作,均满足AIAgent 的基本定义。当时的业界潮流是通过强化学习的方法来对 AI Agent进行训练,主要应用场景是在游戏这类具有对抗性、有明显输赢双方的场景中。但如果想要在真实世界中实现通用性,基于当时的技术水平还难以实现。
大语言模型的浪潮推动了 AIAget 关研究快发展,经过四大发展阶,逐具了高效推理、灵活行动、强大泛化以及无任务转能力。
发展历程:AI Agent经历了符号智能体、反映型智能体、基于强化学习的智能体、具有迁移学习和元学习功能的智能体四大发展阶段,现在已经跨入基于大型语言模型的智能体阶段。
具备的优势:大语言模型为 AI Agent 带来了突破性的进展,同时具备了以上四大发展阶段的优势:
1)通过思维链(COT)和问题分解等技术,基于 LLM 的智能体可以表现出与符号智能体相当的推理和规划能力;
2)通过从反馈中学习和执行新的行动,获得与环境互动的能力,类似于反应型智能体;
3)大型语言模型在大规模语料库中进行预训练,并显示出泛化与迁移学习的能力;
4)从而实现任务间的无缝转移,而无需更新参数。
通往 AGI 的道路仍需探索,AI Agent 是当前的主要路线。在大模型浪潮席卷全球之时,很多人认为大 模型距离真正的通用人工智能 AGI 已经非常接近,很多厂商都投入了基础大模型的研究。但经过了一段 时间后,大家对大模型真实的能力边界有了清晰的认知,发现大模型仍存在大量的问题如幻觉、上下文 容量限制等,导致其无法直接通向 AGI,于是 AI Agent 成为了新的研究方向。通过让大模型借助一个 或多个 Agent 的能力,构建成为具备自主思考决策和执行能力的智能体,来继续实现通往 AGI 的道路。 AI Agent 将是未来 AI 的前沿方向。
4、应用两大方向: 自动化(自主智能体)、拟人化(智能体模拟)
结合目前学术界和产业界基于 LLM 开发的AIAGENT 应用情况,能够将 AIAGENT 划分为两大类:
自主智能体,力图实现复杂流程自动化。当给定自主智能体一个目标时,它们能自行创建任务、完成任务、创建新任务、重新确定任务列表的优先级、完成新的首要任务,并不断重复这个过程,直到完成目标。准确度要求高,因而更需要外部工具辅助减少大模型不确定性的负面影响。
智能体模拟,力图更加拟人可信。分为强调情感情商的智能体以及强调交互的智能体,后者往往是在多智能体环境中,可能涌现出超越设计者规划的场景和能力,大模型生成的不确定性反而成为优势,多样性使其有望成为 AIGC 重要组成部分。
能够认为两大方向并不是完全制的,相反,自动化与拟人化将作为AI Aget 两大力并发展随底模型成熟以及行业探更加深入,有望进一步扩大 AI Agent 适用范围,提升其实用性。
一个基于大模型的 AI Agent 系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。6 月, OpenAI 的应用研究主管 Lilian Weng 撰写了一篇博客,认为 AI Agent 可能会成为新时代的开端。她提 出了 Agent=LLM+规划技能+记忆+工具使用的基础架构,其中 LLM 扮演了 Agent 的“大脑”,在这个系统中提供推理、规划等能力。
1、大模型+规划: Agent 的“大脑”,通过思维能力实现任务分解
LLM 具备推理能力,Agent 可以 LLM 的推力发来。当模型规模足够大的时候LLM 本身是具备推理能力的。在简单推理问题上,LLM 已经达到了很好的能力:但在复杂推理问题上,LLM 有时还是会出现错误。事实上,很多时候用户无法通过 LLM 获得理想的回答,原因在于 prompt不够合适,无法激发 LLM 本身的推理能力,通过追加辅助推理的 prompt,可以大幅提升 LLM 的推理效果。在《Large language models are zero-shot reasoners》这篇论文的测试中,在向 LLM 提问的时候 追加“Let’s think step by step”后,在数学推理测试集 GSM8K 上的推理准确率从10.4%提升到了40.7%。 而 Agent 作为智能体代理,能够根据给定的目标自己创建合适的 prompt,可以更好地激发大模型的推理能力。
通常情况下,一项复杂的任务往往涉及许多步骤。AI Agent 需要首先拆解这些步骤,并提前做好计划。 任务的分解的环节可以由三种方式完成:
1) 在大模型输入简单的提示,比如“XYZ 的步骤”,或者“实现XYZ 的子目标是什么?”2)使用特定任务的指令,比如在需要写小说的时候要求大模型“写一个故事大纲”;3)通过人工提供信息。当下普遍的技术模式包括思维链和思维树:
思维链(Chain ofThoughts)已成为一种标准的提示技术,用于提高模型在复杂任务中的表现。模型被要求“一步一步地思考”,将艰巨的任务分解为更小更简单的步骤。思维链将大任务转化为多个可管理的任务,并帮助人们理解模型的思维过程。
思维树(Tree ofThoughts)通过在任务的每一步探索多种推理可能性来扩展思维链。它首先将问题分解为多个思考步骤,并在每个步骤中生成多个想法,从而创建一个树状结构。搜索过程可以是 BFS(广度优先搜索)或 DFS (深度优先搜索)。
另一方面,试错和纠错在现实世界的任务决策中是不可避免且至关重要的步骤。自我反思帮助 AIAgent 完善过去的行动决策、纠正以前的错误、从而不断改进。当下的技术包括 ReAct、Reflexion后见链 (Chain of Hindsight) 等:
ReAct:将任务中单独的行为和语言空间组合在一起,从而使大模型的推理和行动融为一体。该模式帮助大模型与环境互动(例如使用维基百科搜索 API),并以自然语言留下推理的痕迹。
Reflexion:一个让 AI Agent 具备动态记忆和自我反思能力以提高推理能力的框架。沿用了 ReAct 中 的设置,并提供简单的二进制奖励。每次行动后,AI Agent 都会计算一个启发式函数,并根据自我反思 的结果决定是否重置环境以开始新的试验。这个启发式的函数可以判断是否当下的路径效率低下(耗时 过长却没有成功)或包含幻觉(在环境中遇到一连串导致相同观察结果的相同行动),并在出现这两种情况下终止函数。
后见链(Chain of Hindsight):通过向模型明确展示一系列过去的输出结果,鼓励模型改进自身的输出结果,使得下一次预测的行动比之前的试验取得更好的成绩。算法蒸馏(Algorithm Distillation) 将同样的理念应用于强化学习任务中的跨集轨迹。
2、记忆: 用有限的上下文长度实现更多的记忆
记忆模块负责存储信息,包括过去的交互、学习到的知识,甚至是临时的任务信息。对于一个智能体来说,有效的记忆机制能够保障它在面对新的或复杂的情况时,调用以往的经验和知识。例如,一个具备记忆功能的聊天机器人可以记住用户的偏好或先前的对话内容,从而提供更个性化和连贯的交流体验。
对AI智能体系统的输入会成为系统的记忆,与人类的记忆模式可实现一一映射。记忆可以定义为用于获取、存储、保留以及随后检索信息的过程。人脑中有多种记忆类型,如感觉记忆、短期记忆和长期记忆。而对于 AIAgent 系统而言,用户在与其交互过程中产生的内容都可以认为是 Agent 的记忆,和人类记忆的模式能够产生对应关系。感觉记忆就是作为学习嵌入表示的原始输入,包括文本、图像或其他模态;短期记忆就是上下文,受到有限的上下文窗口长度的限制;长期记忆则可以认为是 Agent 在工作时需要查询的外部向量数据库,可通过快速检索进行访问。目前 Agent 主要是利用外部的长期记忆,来完成很多的复杂任务,比如阅读 PDF、联网搜索实时新闻等。任务与结果会储存在记忆模块中,当信息被调用时,储存在记忆中的信息会回到与用户的对话中,由此创造出更加紧密的上下文环境。
为了解决有限记忆时间的限制,通常会用到外部存储。常见的做法是将信息的入表示保存到可支持快的最大内积搜索(MIPS向据中向通过将据转化为,解决大模型海量知识的存储、检索、匹配问题。向量是 AI 理解世界的通用数据形式,大模型需要大量的数据进行训练,以获取丰富的语义和上下文信息,导致了数据量的指数级增长。向量数据库利用人工智能中的 Embedding 方法,将图像、音视频等非结构化数据抽象、转换为多维向量,由此可以结构化地在向量数据库中进行管理,从而实现快速、高效的数据存储和检索过程,赋予了 Agent“长期记忆”。同时,将高维空间中的多模态数据映射到低维空间的向量,也能大幅降低存储和计算的成本,向量数据库的存储成本比存到神经网络的成本要低 2 到 4 个数量级。
Embedding技术和向量相似度计算是向量数据库的核心。Embedding 技术是一种将图像、音视频等非结构化数据转化为计算机能够识别的语言的方法,例如常见的地图就是对于现实地理的 Embedding.现实的地理地形的信息其实远远超过三维,但是地图通过颜色和等高线等来最大化表现现实的地理信息在通过 Embedding 技术将非结构化数据例如文本数据转化为向量后,就可以通过数学方法来计算两个向量之间的相似度,即可实现对文本的比较。向量数据库强大的检索功能就是基于向量相似度计算而达成的,通过相似性检索特性,针对相似的问题找出近似匹配的结果,是一种模糊匹配的检索,没有标准的准确答案,进而更高效地支撑更广泛的应用场景。
3、工具:懂得使用工具才会更像人类
AIAgemt 与大模型的一大区别在于能够使用外部工具拓展模型能力。懂得使用工具是人类最显著和最独特的地方,同样地,也可以为大模型配备外部工具来让模型完成原本无法完成的工作。ChatGPT 的-大缺点在于,其训练数据只截止到了 2021 年底,对于更新一些的知识内容它无法直接做出回答。虽然后续 OpenAI为 ChatGPT 更新了插件功能,能够调用浏览器插件来访问最新的信息,但是需要用户来针对问题指定是否需要使用插件,无法做到完全自然的回答。AI Agent 则具备了自主调用工具的能力,在获取到每一步子任务的工作后,Agent 都会判断是否需要通过调用外部工具来完成该子任务,并在完成后获取该外部工具返回的信息提供给 LLM,进行下一步子任务的工作。OpenAI 也在 6月为 GPT-4和 GPT-3.5 更新了函数调用的功能,开发者现在可以向这两个大模型描述函数,并让模型智能地选择输出包含调用这些丽数的参数的JSON 对象。这是一种更可地将 GPT 的功能与外部工具和 API相连的新方法,允许开发者更可靠地从模型中获得结构化的数据,为 AI 开发者提供了方便。
当下,使用工具的范例 AI Agent 之一为 HuggingGPT 。HuggingGPT 将模型社区 HuggingFace 和ChatGPT 连接在一起,形成了一个AI Agent。2023 年 4 月,浙江大学和微软联合团队发布了HuggingGPT,它可以连接不同的 AI模型,以解决用户提出的任务。HuggingGPT 融合了 HuggingFace中成百上千的模型和 GPT,可以解决 24 种任务,包括文本分类、对象检测、语义分制、图像生成、问答、文本语音转换和文本视频转换。具体步骤分为四步:
1)任务规划:使用 ChatGPT 来获取用户请求;
2) 模型选择: 根据 HuggingFace 中的函数描述选择模型,并用选中的模型执行 AI任务;
3)任务执行:使用第 2 步选择的模型执行的任务,总结成回答返回给 ChatGPT;
4)回答生成: 使用 ChatGPT 融合所有模型的推理,生成回答返回给用户。
1、软件新范式,非大模型玩家亦有机会
自主智能体,力图实现复杂流程自动化。真格基金管理合伙人戴雨森将 AI和人类协作的程度类比为自动驾驶的不同阶段,AIAgent 约为自动驾驶的 L4 阶段,Agent 完成任务,人进行外部辅助和监督。
自主智能体有望带来软件行业交互方式和商业模式变革:
交方式变革:相比过去的APP/软件,从人适应应用变成应用适应人,Agent 的决策/规划/执行等环节需要更深的用户需求理解以及更强的工程细节打磨。如目前 Agent 运行中常常遇见无休止的扩展、误解输出格式等问题,这类问题不单单依靠大模型能力提升,对 Agent 架构的设计和垂类数据的学习也有要求。商业模式变革:按服务内容收费转换成按 token 收费,对 Agent 功能实用性要求更高。
基座大模型能力固然重要,但其只能解决下限问题,在实际企业应用场景中自主智能体的架构设计、工程能力、垂类数据质量等也至关重要,垂类/中间件玩家亦有机会。准确度和效率是自主智能体重要指标(决策式 AI 更擅长做的事,也意味着更低的容错度》,企业对于低门槛定制 AGENT 也存在需求,专注具体领域/提供 AGENT 框架的玩家仍有可为。
2、实验性 VS 实操性,单智能体 VS 多智能体
目前行业内对自主智能体的探索主要分为四大类:
实验性项目 VS 实操性应用:前者虽然实际运行中出错概率高,但其创意、思路和开发经验对开发者仍有不少启发和贡献,如掀起这一波 AGENT 开发热潮的 AutoGPT。实操性应用更加强调与实际场景的适配。
单智能体VS 多智能体:单智能体相对更适用于较简单的任务(如比价等),在 C端应用上有一定潜力(如 chatgpt+插件、adeptai 等): 但其在 B 端场景上略显乏力,由于缺乏完整性评估、任务队列过长大模型幻觉等原因,基本无法完成较为复杂的工作(如软件开发等),多智能体优势相对更加突出(如metagpt、chatdev 等)。
1、陪伴类,提供情绪价值
陪伴能体强情感情商等人类特,具有“人格”,且够记与用户的历史交流。
(1)LLM在自然语言理解能力上的重要突破使陪伴类智能体在技术上成为可能,
(2) GPT4 在商上显著高于以往其他大模型,随着大模型情商迭代、多模态技术发展,有望出现更加立体拟人可信、能够提供较高情绪价值的陪伴智能体。
目前国内情绪消费市场仍有较大想象空间(社会婚姻观念转变、现代工作生活节泰紧张下,国民孤独感增加),陪伴类智能体或受益于情绪消费趋势红利,成为 LLM 时代重要的 AI 原生应用。从用户陪伴性需求的第一性原理出发,预计陪伴类智能体大部分商业价值集中在 IP 上,基于此当前具备丰富 IP 储备或者能让用户定制智能体的玩家前景广阔:
1)参考人的陪伴:陌生人社交和秀场直播属于线上陪伴代表性应用,前者核心问题在于用户间建立一定情感联系后会转到最常用的社交平台,后者用户价值会逐渐集中到头部主播,而非平台。
2)参考物的陪伴:潮玩等消费品有一定的陪伴属性,受众大部分支出花在自己喜欢的 IP。
2、重交互,提高用户体验
交互智能体:强调与环境交互的能力,智能体与智能体/虚拟世界内事物之间可互动,可能涌现出超越设计者规划的场景和能力,大模型不确定性反而成为优势,有望成为 AIGC 重要部分。特别是对开放世界游戏等行业,创建可信 agent(大部分为可信 NPC)的目的是提供一种生命的幻觉,做出决策并按 自己的意愿行事,从而呈现出一种真实感,可增强玩家沉浸感,解决开放世界内容消耗快的问题;可信 agent 技术成熟后可能会孵化出新的游戏品类。
(1)单智能体:游戏世界 AI 玩家,如 Voyager
Voyager是第一个大模型驱动,可以终身学习的游戏能体。2023 年5月,英伟达开源了 Voyager这游戏智能体。英伟达将 Voyager 用在了《我的世界》这款游戏中,《我的世界》没有强加一个预定的最终目标或固定的故事情节,而是提供了一个具有无限可能性的独特游乐场。一个高效的终身学习Agent 应该具有与人类玩家类似的能力,能够根据当前技能水平和世界状态发现合适的任务,能够根据反馈学习和完善技能,不断探索世界。英伟达采用了“无梯度”的 Agent 训练方法,基于 GPT-4的Voyager 在游戏里表现优异,获得的独特物品增加了 3.3 倍,行进距离增加了 2.3 倍,解锁关键科技树里程碑的速度比之前的方法快了 15.3 倍。
报告共计:34页