在人工智能领域,大型语言模型(LLMs)的快速发展推动了AI代理的进步,尤其是在视觉任务的处理上。然而,现有的以LLM为驱动的视觉代理主要集中于静态图像任务的解决,这限制了它们理解现实世界动态本质的能力。例如,在实验室指导学生实验并识别错误的场景中,现有系统仍难以应用。视频模态以其动态和感知密集的特性更好地反映了现实世界的场景,因此,开发能够处理动态视频任务的LLM驱动代理具有重要意义,但同时也面临着巨大的挑战。
为了应对这些挑战,我们提出了DoraemonGPT——一个全面且概念上优雅的系统,它能够有效地处理动态视频任务,并在多个潜在解决方案中进行综合探索,最终提供信息丰富的答案。DoraemonGPT通过将输入视频转换为存储任务相关属性的符号记忆,支持空间-时间查询和推理,并结合了插件式工具来评估外部知识,跨不同领域解决任务。此外,我们引入了一种基于蒙特卡洛树搜索的新型LLM驱动规划器,以高效地探索大规模规划空间。DoraemonGPT在动态场景中的表现以及在实际应用中的展示,证明了其处理比以往研究中更复杂问题的能力。
声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。
智能体传送门:赛博马良-AI论文解读达人
论文标题、机构、论文链接和项目地址
在人工智能领域,大型语言模型(LLMs)的发展推动了AI代理的进步。然而,以LLM为驱动的视觉代理主要关注图像模态的任务解决,这限制了它们理解现实世界动态性的能力。为了更好地反映现实世界场景的不断变化和感知密集的特性,我们设计了DoraemonGPT,一个由LLM驱动的系统,用于处理动态视频任务。
1. 任务相关符号记忆(TSM)的构建
DoraemonGPT首先将输入的视频内容转换为存储任务相关属性的符号记忆。这种结构化的表示允许通过子任务工具进行时空查询和推理,从而产生简洁且相关的中间结果。为了构建这些记忆,LLMs被用来确定它们与给定任务的相关性,并只保留有用的信息。基础模型随后被用来提取空间优势属性(例如,实例检测、轨迹、描述、动作等)或时间优势属性(例如,帧标题、视频描述、音频语音等),并将它们整合到一个紧凑的表格中,这便于LLMs使用符号语言(例如,SQL语言)进行查询。
2. 子任务工具和知识工具的应用
为了简化规划器的上下文/文本长度并提高效果,我们设计了一系列子任务工具来简化记忆信息的查询。每个工具都专注于不同类型的时空推理(例如,“How…”, “Why…”等),通过使用特定任务提示和示例的个体LLM驱动子代理。此外,对于需要特定领域知识的任务,可以通过专用的子代理工具轻松地整合外部知识源。
3. 利用蒙特卡洛树搜索(MCTS)规划器进行决策
为了有效地探索大型规划空间,我们提出了一个基于树搜索的新型规划器。规划器通过反向传播答案的奖励迭代地找到可行解,并选择一个高扩展性的节点来扩展新的解决方案。在总结所有结果后,规划器得出一个信息丰富的最终答案。为了设计这种树搜索规划器,我们为DoraemonGPT配备了MCTS,它在从大型搜索空间中找到最优决策方面显示出了实用性,特别是在游戏AI社区中。
1. 收集任务信息的能力
DoraemonGPT首先收集有关给定任务的信息,然后进行推理。在DoraemonGPT中,给定动态任务的分解是由基于代理的时空关系推理决定的,这些关系是从信息属性(如实例位置、动作、场景变化等)中推断出来的。然而,需要注意的是,只有与任务解决相关的信息是关键的,因为收集过多的上下文往往会阻碍LLMs的能力。
2. 探索更好解决方案的能力
LLM驱动的规划将高级任务分解为子任务或动作序列。考虑到解决动态场景中任务的大型规划空间,使用树状搜索方法提示LLMs提供了更好的解决方案的机会,甚至可以从不同的角度考虑任务。
3. 支持知识扩展的能力
就像人类为了解决特定领域的问题而查阅参考书一样,DoraemonGPT旨在从一系列给定的外部知识源中选择最相关的知识源(例如,搜索引擎、教科书、数据库等),然后在规划过程中查询其中的信息。
1. 空间优势记忆的特点与应用
空间优势记忆(Space-dominant Memory, SDM)是为了解决与特定目标(如人或动物)或它们的空间关系相关的问题而设计的。它使用多目标跟踪方法来检测和追踪实例,并为每个实例分配属性,包括唯一ID、语义类别、用于定位的轨迹和分割、外观描述以及动作分类。这些属性通过基础模型提取,如BLIP系列用于文本基础的定位,以及用于动作识别的InternVideo。SDM的设计使得LLM能够通过符号语言(如SQL)查询信息,从而进行空间推理。
2. 时间优势记忆的特点与应用
时间优势记忆(Time-dominant Memory, TDM)专注于构建与问题相关的视频的时间信息。它需要理解整个视频的内容,包括时间戳、音频内容、光学字符识别结果、帧级标题和剪辑级标题等。这些属性存储在TDM中,以便LLM可以查询和推理视频中的时间序列事件。例如,通过ASR提取的音频内容和通过OCR提取的光学内容,可以帮助LLM理解视频中的对话和文本信息,从而进行时间推理。
1. 不同子任务工具的描述与作用
子任务工具是为了简化记忆信息查询而设计的,每个工具都关注不同类型的空间-时间推理问题。例如,“When”工具用于时间理解,而“Why”工具用于因果推理。这些工具由LLM驱动的子代理构成,每个子代理都有特定的提示和示例来生成SQL语句,查询TSM并回答给定的子任务问题。这样的设计提高了查询效率,并减少了上下文长度,从而避免了由于冗余上下文而导致的关键信息遗漏。
2. 子任务工具如何与TSM交互
子任务工具通过生成的SQL语句与TSM进行交互。LLM-driven planner通过上下文描述学习每个子任务工具的功能,并生成相应的API命令来调用子任务工具。例如,一个命令可能是“Action: 〈tool name〉. Input: 〈video name〉#〈sub question〉…”。这样的设计允许DoraemonGPT根据视频和问题的具体内容,选择合适的子任务工具进行查询和推理,以解决复杂的动态视频任务。
在构建智能代理系统时,集成多种工具以处理复杂任务是至关重要的。DoraemonGPT系统通过结合知识工具和其他实用工具,展示了这一理念的实际应用。
1. 外部知识源的接入与查询
DoraemonGPT系统能够接入外部知识源,以弥补大型语言模型(LLMs)在特定领域知识有限的问题。这些外部知识源包括搜索引擎、教科书、数据库等,它们可以通过专门设计的知识工具进行查询。这些工具分为三类:符号知识工具、文本知识工具和网络知识工具。符号知识工具处理结构化数据,如Excel或SQL表格;文本知识工具处理自然语言文本,如研究出版物;网络知识工具则通过搜索引擎API查询互联网信息。这些工具的集成使得DoraemonGPT能够在规划过程中查询最相关的信息,从而提高处理特定问题的准确性。
2. 视频编辑等特殊任务的工具支持
除了知识工具,DoraemonGPT还支持集成一系列实用工具,以帮助完成更专业的视觉任务,如视频编辑、视频修复等。这些工具通常在LLM驱动的代理系统中使用,并且可以通过DoraemonGPT的规划器自动安排使用。例如,在视频编辑任务中,DoraemonGPT可以识别视频中的特定对象,并调用视频修复工具来移除或编辑这些对象,从而生成所需的视频输出。
DoraemonGPT系统采用了基于蒙特卡洛树搜索(MCTS)的规划器,以有效地探索大规模规划空间,并为动态视频任务找到可行的解决方案。
1. 节点选择与分支扩展
MCTS规划器的节点选择阶段从可扩展节点中选择一个节点来规划新的解决方案。选择过程基于节点的奖励值,奖励值越高的节点被选中的概率越大。在分支扩展阶段,规划器会为所选节点添加一个新的子节点,从而创建一个新的分支。这一过程通过向LLM提供历史工具操作的提示,并指导它做出与之前子节点不同的选择。
2. 链执行与奖励反向传播
在链执行阶段,规划器通过逐步执行工具调用来生成新的解决方案,直到获得最终答案或遇到执行错误为止。在奖励反向传播阶段,规划器将从叶节点开始,逐渐将其奖励传播到所有祖先节点。奖励的计算考虑了两种情况:失败和非失败。非失败情况下,规划器成功生成了结果,但不能确定结果是否正确。奖励的分配考虑了节点之间的距离,距离越近的节点获得的奖励越多。这样的设计使得MCTS规划器能够在大型解决方案空间中更有效地探索,并为复杂问题提供多个潜在的解决方案。
实验中使用的数据集为NExT-QA [34],这是一个专注于视频理解的基准测试,旨在通过对因果行为推理、时间行为推理和常见场景理解的评估来提升视频理解能力。该数据集包含34,132/4,996/8,564个训练/验证/测试问题。每个问题都有一个问题类型(因果/时间/描述性)和5个答案候选。由于GPT-3.5 API调用频率和预算的限制,我们创建了一个平衡的NExT-QA子集,具体来说,我们从验证集中随机抽样每种问题类型最多300个样本,总共900个问题(s_val)。对于消融研究,我们从训练集中随机抽样每种问题类型10个样本,总共30个问题(s_train)。
评估指标采用标准度量[top-1测试准确率](#34, #110),分别报告因果推理(AccC)、时间推理(AccT)和描述性推理(AccD)的准确率。同时,我们还报告了平均准确率(Avg,即AccC、AccT和AccD的平均值)和所有问题的总体准确率(AccA)。
在实现细节方面,我们使用OpenAI提供的GPT-3.5-turbo API作为我们的LLM。如表1所总结,我们使用BLIP系列[55, 100]进行字幕生成,YOLOv8 [95]和Deep OC-Sort [96]进行对象跟踪,PaddleOCR [99]进行OCR,InternVideo [97]进行动作识别,以及Whisper [98]进行语音识别。我们的实验在上下文学习(ICL)设置下进行。
在NExT-QA基准测试中,DoraemonGPT的表现优于最近的LLM驱动竞争对手。例如,它在因果/时间/描述性推理方面超过了ViperGPT [9] 19.3%/5.6%/15.2%。此外,我们还进行了广泛的消融研究,验证了我们的MCTS规划器的有效性,其性能超过了朴素的DFS方法和其他基线。在处理更复杂的实际任务时,DoraemonGPT通过整合外部知识和总结多个可行解决方案的结果,提供了合理的答案。
我们对MCTS规划器进行了一系列消融实验,以研究答案候选数量在规划过程中的影响。当N=1时,规划器相当于贪婪搜索,只探索一条节点链,并返回单一答案。如表3a所示,逐渐增加N从1到4可以提高性能(即43.3 → 65.7)。这支持了我们的假设,即单一答案远远不足以处理动态模态的更大规划空间,并证明了我们的MCTS规划器的有效性。由于NExT-QA [34]中的问题是单选题,探索更多答案并不总是带来正面回报。我们停止使用N>5,因为所需的API调用次数超出了我们的预算。
在MCTS规划器中,我们还对基础奖励α和衰减率β的影响进行了消融研究。如表3b所报告的,无论使用哪种α和β组合,它们的性能都是稳定的。因此,我们将稍微更好的组合,α=1和β=0.5,设置为我们的默认设置。我们将在下一部分留下一些特殊组合(例如,当设置β=108和Rvl=1对于失败和非失败情况时,我们的MCTS规划器变成了深度优先搜索(DFS))。
最后,为了验证我们的MCTS规划器的优势,我们将MCTS与几种标准的探索策略进行了比较,即深度优先搜索(DFS)、Root(总是选择根节点)和Uniform(以相等概率抽样节点)。如表3c所示,我们观察到它们的性能是次优的,因为它们无法利用结果叶节点的价值/奖励并相应地调整搜索策略。与这些朴素策略相比,我们的MCTS规划器在奖励回传的指导下自适应地抽样节点,这在大型解决方案空间中更为有效。这些结果进一步验证了所提出的MCTS规划器的优越性。
DoraemonGPT是一个基于大型语言模型(LLMs)的系统,旨在处理动态视频任务。它通过将输入视频转换为包含任务相关属性的符号记忆,然后利用子任务工具进行空间-时间查询和推理,从而生成简洁且相关的中间结果。DoraemonGPT的优势在于:
然而,DoraemonGPT也存在一些局限性:
未来的研究可以在以下几个方面进行:
声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。
智能体传送门:赛博马良-AI论文解读达人