大模型GUI系列论文阅读 DAY2续:《一个具备规划、长上下文理解和程序合成能力的真实世界Web代理》
摘要预训练的大语言模型(LLMs)近年来在自主网页自动化方面实现了更好的泛化能力和样本效率。然而,在真实世界的网站上,其性能仍然受到以下问题的影响:(1)开放领域的复杂性,(2)有限的上下文长度,(3)在HTML结构上的归纳偏差不足。我们提出WebAgent,一个由LLM驱动的智能代理,能够通过自我学习的方式,在真实网站上按照自然语言指令完成任务。WebAgent通过将指令提前规划,将其分解为子指