聊聊具身智能怎么实现?

当学习GPT技术时,我们会思考GPT发展的最终目标是什么?答案是“具身智能”,它是一种通用人工智能,可以像人一样能够和环境交互感知、自主规划、决策、行动。

GPT的诞生要归功于NLP技术的快速发展,从2018年到2021年,是第一代大语言模型的“技术爆炸”期,人们逐渐适应了通过海量的无标签数据来训练这些“涌现”智能的大模型,之后OpenAI采用强化学习技术,点亮了LLM的只能,由此产生了ChatGPT。

智能体的自治

我们可以想一下,当我们面临一个任务时,一般的处理步骤是怎样的?通常会有以下几步:

  1. 思考任务的主要步骤有哪些
  2. 调取相关资料,形成可行方案
  3. 通过分工去执行具体的事项
  4. 汇总完成任务

上面的过程是不是很熟悉,对于智能体来说,我们要做的就是将上面的步骤交给大语言模型(LLM)来完成。

我们如果想让智能体具有“自治”的能力,需要把以下三部分结合起来:

  1. 计划
  2. 记忆
  3. 工具

计划

教LLM思考的过程,一个最佳实践是通过提问来引导LLM思考,经典的方法是ReAct,它包含三部分:

  1. Thought:让大语言思考,目前需要做哪些行为,行为的对象是谁,它要采取的行为是不是合理的。
  2. Act:针对目标对象,执行具体的操作,比如调用API,然后收集环境反馈的信息。
  3. Obs:把外界观察的反馈信息,同步给LLM,协助它做出进一步的分析或者决策。

在这个过程中,思维链技术变得非常重要,它可以让LLM将任务分解为可解释的步骤。

记忆唤醒

无论在定制计划、使用工具或执行任务的过程中,LLM都需要外部信息的帮助来辅助进行思考。

我们可以将人和LLM进行对比,将记忆分为三类:

  1. 感觉记忆,人体接收到外部信号以后,瞬间保留的视觉、听觉、触觉的记忆片段,在LLM中就是Embedding。
  2. 短期记忆,当前意识中的信息,在LLM中类似于提示词。
  3. 长期记忆,人能回忆的所有信息,在LLM中类似于外部向量存储。

LLM能消化的只有提示词中的短时记忆,所以我们需要在长期记忆中选择最重要的内容放入提示词。这个过程描述如下:

  1. LLM在得到任务后,会帮忙制定记忆唤醒方案
  2. AI系统执行该方案,生成相关的查询指令,从外部数据中查询数据
  3. 我们将这些数据交给LLM来判断是否已经获得足够完成任务的数据,如果没有,LLM会生成新的唤醒方案,并循环这个过程

使用工具

要想LLM学会使用工具,首先需要它认识工具。

我们以Gorilla为例,来描述它教会LLM使用API的全过程:

  1. 我们使用大量API调用代码和文档作为语料,训练一个可以理解API的LLM
  2. AI系统还将对这些API进行向量化操作,将它们存储在向量数据库中作为外部记忆
  3. 当用户发起请求时,AI系统会从外部记忆中,获取跟请求相关的API交给LLM
  4. LLM组合串联这些API形成代码,并执行代码,完成API调用,生成执行结果

你可能感兴趣的:(AI大模型,AI大模型,AIGC,人工智能,LLM)