大模型GUI系列论文阅读 DAY2续:《一个具备规划、长上下文理解和程序合成能力的真实世界Web代理》

摘要
预训练的大语言模型(LLMs)近年来在自主网页自动化方面实现了更好的泛化能力和样本效率。然而,在真实世界的网站上,其性能仍然受到以下问题的影响:(1) 开放领域的复杂性,(2) 有限的上下文长度,(3) 在 HTML 结构上的归纳偏差不足。

我们提出 WebAgent,一个由 LLM 驱动的智能代理,能够通过自我学习的方式,在真实网站上按照自然语言指令完成任务。WebAgent 通过将指令提前规划,将其分解为子指令,并将长 HTML 文档提炼为与任务相关的摘要内容,最终通过生成的 Python 代码在网站上执行操作。

我们在 WebAgent 的设计中,结合了 Flan-U-PaLM 进行稳健的代码生成,同时使用 HTML-T5(一种针对长 HTML 文档预训练的新型 LLM)进行规划和摘要。HTML-T5 采用了局部与全局注意力机制,以及结合长跨度去噪目标的混合训练方法。

实验结果表明,我们的模块化方法在真实网站上的任务成功率提升了50%以上。此外,HTML-T5 在各种 HTML 理解任务中表现最佳,在 MiniWoB 网页自动化基准测试上,成功率比先前方法高出 18.7%,并在 Mind2Web(一个离线任务规划评估基准)上达到了**最先进(SoTA)**的性能。

1 引言

大语言模型(LLM)(Brown 等, 2020; Chowdhery 等, 2022; OpenAI, 2023)在多种自然语言任务中展现了卓越的能力,例如算术推理、常识推理、逻辑推理、问答、文本生成(Brown 等, 2020; Kojima 等, 2022; Wei 等, 2022),甚至交互式决策任务(Ahn 等, 2022; Yao 等, 2022b)。近年来,LLM 还成功应用于自主网页导航,通过多步推理和决策,使代理能够控制计算机或浏览器,根据自然语言指令执行操作(Furuta 等, 2023; Gur 等, 2022; Kim 等, 2023)。

然而,真实世界网站的网页自动化仍然面临以下挑战:

  1. 缺乏预定义的操作空间
  2. 真实网站的 HTML 文档远长于模拟环境的观测数据
  3. 缺乏专门用于理解 HTML 文档的领域知识(如图 1 所示)

考虑到真实网站的开放性和指令的复杂性,预先定义合适的操作空间 是一项具有挑战性的任务。此外,尽管已有研究表明,通过指令微调从人类反馈中进行强化学习可以提高 HTML 理解和网页自动化的准确性(Furuta 等, 2023; Kim 等, 2023),但现有架构通常难以处理真实网站的 HTML 文档。

如图 2 所示,真实网站的 HTML 令牌长度远超模拟器,且大多数 LLM 的上下文长度比真实网站的平均 HTML 令牌数要短。直接将如此长的 HTML 文档作为输入成本极高,而使用诸如文本-XPath 对齐(Li 等, 2021b)或文本-HTML 令牌分离(Wang 等, 2022a)等现有技术,也存在一定局限性。为了实现更广泛的任务泛化和模型规模扩展,现有 LLM 往往忽略了针对 HTML 文档的领域知识。


WebAgent 介绍

在本研究中,我们提出了 WebAgent,这是一个由 LLM 驱动的自主智能代理,能够通过自我学习经验,在真实网站上按照用户指令完成任务。

WebAgent 通过在程序空间中结合标准网页操作,完成任务(如图 3 所示),其关键功能包括:

  1. 任务规划:将自然语言指令分解为子指令。
  2. HTML 摘要:根据规划结果,将长 HTML 文档提取为与任务相关的片段。
  3. 网页操作:将子指令和 HTML 摘要转化为可执行的 Python 代码,在真实网站上执行操作。

WebAgent 采用两种 LLM 进行模块化集成:

  • HTML-T5:一个新推出的领域专家语言模型,专为任务规划HTML 摘要而设计。
  • Flan-U-PaLM(Chowdhery 等, 2022; Chung 等, 2022):用于稳健的代码生成。

HTML-T5 采用编码-解码架构,并通过局部和全局注意力机制(Guo 等, 2022)来更好地捕获长 HTML 文档的结构。与模拟环境(平均约 0.5K 令牌)相比,真实网站的 HTML 令牌数量显著更高(7K 至 14K),占用了 LLM 大部分的上下文长度。因此,我们在预处理阶段移除了无关的 HTML 标签(例如

你可能感兴趣的:(论文阅读)