近年来,大型多模态模型(LMMs)的发展,特别是 GPT-4V(ision) 和 Gemini,迅速扩展了多模态模型的能力边界,不再局限于传统任务如图像描述和视觉问答。在本研究中,我们探讨了 LMMs(如 GPT-4V)作为通用网页代理的潜力,这类代理能够根据自然语言指令完成任意网站上的任务。我们提出了 SEEACT,这是一种通用网页代理,利用 LMMs 的视觉理解能力,实现网页上的操作。
我们在最新的 MIND2WEB 基准测试上进行了评估。除了对缓存网站的标准离线评估外,我们还开发了一种工具,支持在线评估,即在实时网站上运行网页代理。我们的研究表明,GPT-4V 展现了作为网页代理的巨大潜力——在人工将其文本计划转化为网站上的实际操作的情况下,它能够成功完成实时网站上的 51.1% 任务。这一表现显著优于文本仅限的 LLMs(如 GPT-4)或针对网页代理特别微调的小型模型(如 FLAN-T5 和 BLIP-2)。
然而,基础对接(grounding)仍然是一个主要挑战。现有的 LMM 对接策略(如 set-of-mark 提示)对网页代理并不有效。本研究中开发的最佳对接策略结合了 HTML 结构和视觉信息。然而,与理想的对接(oracle grounding)相比仍存在显著差距,这表明仍有很大的改进空间。所有代码、数据和评估工具均可在以下网址获取:
https://github.com/OSU-NLP-Group/SeeAct。
1. 引言
大型多模态模型(LMMs;Li 等, 2023;Alayrac 等, 2022;Liu 等, 2023b),尤其是最近的 GPT-4V(ision)(OpenAI, 2023)和 Gemini(Anil 等, 2023),在标准的视觉-语言理解与推理基准测试中展现出了卓越的能力(Kazemzadeh 等, 2014;Goyal 等, 2016;Hendrycks 等, 2020;Saikh 等, 2022;Lu 等, 2022;Zhong 等, 2023;Yue 等, 2023)。虽然网页内容一直是 LMMs 的主要训练数据来源,但网页本身这一部分却在很大程度上被忽视——每个网站都经过视觉设计,以便于人类用户轻松浏览。
这为 LMMs 提出了新的挑战,同时也带来了新的机遇。一方面,网站的渲染截图可能包含数千个元素及其复杂的关联,远比大多数现有基准测试中的图像更复杂,而后者通常集中在对象或场景层面。另一方面,如果 LMMs 能够准确理解网站内容,将为网页上的众多应用打开新的大门。
在本研究中,我们旨在探讨 LMMs 作为通用网页代理的潜力(Deng 等, 2023)。根据 MIND2WEB(Deng 等, 2023)的定义,通用网页代理应能够遵循自然语言指令,在任意真实世界的网站上完成任务(例如图 1 所示)。
这些任务可能非常多样化和复杂,一个任务可能需要在多个动态渲染的网页上执行 10 多个操作。现有研究(Deng 等, 2023;Liu 等, 2023d)主要使用大型语言模型(LLMs),如 GPT-4(OpenAI, 2023),处理原始的 HTML 输入。然而,与渲染后的网站视觉内容相比,HTML 代码更加冗杂,并且信息密度较低。例如,图 1 中的网页截图包含 423 个 HTML 元素,如果使用 GPT-2 标记器处理,将需要 186,490 个文本标记,而 GPT-4V 的视觉标记器仅需 1,445 个视觉标记。此外,HTML 仅能提供不完整的信息,并可能遗漏嵌入图像等关键语义信息。
为此,我们提出了 SEEACT,一种利用 LMMs 能力进行网页视觉理解和操作的通用网页代理。我们将重点研究当前最先进的 LMM,即 GPT-4V,并与较小的 LMMs(如 BLIP-2(Li 等, 2023)和 LLaVA-1.5(Liu 等, 2023a;c))进行比较。我们发现,GPT-4V 在视觉理解渲染后的网页方面表现出很强的能力,能够为各种网站和任务生成正确的文本计划。然而,对接(grounding) 仍然是一个重大挑战,即将文本计划准确转换为网站上的具体操作。这包括选择正确的 HTML 元素进行交互,以及选择正确的操作(例如,点击、输入或选择)。
我们提出了多种 grounding 方法,包括在网页图像上叠加边界框和索引标签,类似于在对象或场景为中心的图像上表现良好的 set-of-mark 提示(Yang 等, 2023a)。然而,我们发现,在具有丰富语义和空间关系的复杂网页截图上,GPT-4V 容易产生严重的幻觉(hallucination)。最有效的 grounding 策略是利用 HTML 元素与其视觉呈现之间的已知对应关系,这一点使得网页与自然图像不同。
我们在 MIND2WEB 数据集(Deng 等, 2023)上评估了 SEEACT,并将其与文本仅 LLMs(如 GPT-4(OpenAI, 2023))以及较小的模型(FLAN-T5(Chung 等, 2022)、BLIP-2(Li 等, 2023)、LLaVA-1.5(Liu 等, 2023a;c)和 CogAgent(Hong 等, 2023))进行比较。除了标准的离线评估(使用缓存网站),我们还开发了一种新的工具,以便在实时网站上运行网页代理,从而进行在线评估。
我们的主要研究发现如下:
SEEACT 结合 GPT-4V 作为通用网页代理具有强大的潜力(如果提供理想的 grounding)。 在在线评估中,它能够成功完成 51.1% 的网站任务,远超现有方法,如 GPT-4(13.3%)或 FLAN-T5(8.9%)。这表明 GPT-4V 等 LMMs 在网页代理方面具有巨大潜力。
然而,grounding 仍然是主要挑战。 目前最优的 grounding 策略与理想对接(oracle grounding)仍存在 20-30% 的差距。在各种 grounding 策略中,最佳方案结合了 HTML 文本和视觉内容,较图像注释策略(Yang 等, 2023a)表现提升高达 10%。
在上下文学习(in-context learning)方面,LLMs 和 LMMs 对于未见过的网站具有更好的泛化能力, 而针对训练时见过的网站,监督微调(supervised fine-tuning)仍然具有优势。
在线与离线评估之间存在显著差异, 因为同一任务可能存在多个可行的解决方案。在线评估更能反映模型的实际性能。
在本节中,我们首先介绍网页代理问题的公式化描述,然后介绍基于大型多模态模型(LMMs)的通用网页代理 SEEACT。具体而言,针对一个网页任务(例如,在汽车租赁网站上“租用最便宜的卡车”),我们研究 LMMs 作为通用网页代理所需的两个核心能力:
给定一个网站 SSS(如汽车租赁网站)和一个任务 TTT(如“租用最便宜的卡车”),网页代理应生成一系列可执行的动作序列 A=[a1,a2,…,an]A = [a_1, a_2, \dots, a_n]A=[a1,a2,…,an] 来完成任务。具体来说,在时间步 ttt,代理需要基于当前环境观测 sts_tst、之前的动作 {a1,a2,…,at−1}\{a_1, a_2, \dots, a_{t-1}\}{a1,a2,…,at−1} 以及任务 TTT,生成动作 ata_tat:
at=π(st,T,{a1,a2,…,at−1})a_t = \pi(s_t, T, \{a_1, a_2, \dots, a_{t-1}\})at=π(st,T,{a1,a2,…,at−1})
环境观测 sts_tst 由 HTML 文档 hth_tht 和网页截图 iti_tit 组成。
在每次操作后,网站状态将被更新:
st+1=S(at)={ht+1,it+1}s_{t+1} = S(a_t) = \{h_{t+1}, i_{t+1}\}st+1=S(at)={ht+1,it+1}
为了简化,后续的公式中将省略时间步 ttt 的表示。
一个动作 aaa 对应于由网站环境提供的浏览器事件。因此,我们将动作定义为网页事件的三元组 (e,o,v)(e, o, v)(e,o,v):
然而,基于 LLM 或 LMM 的代理通常无法直接生成上述三元组 (e,o,v)(e, o, v)(e,o,v),而是生成描述这些变量的文本动作 a~\tilde{a}a~,包括 (e~,o~,v~)(\tilde{e}, \tilde{o}, \tilde{v})(e~,o~,v~)。
这一过程称为 动作生成(Action Generation)。要与网页环境进行交互,还需将 a~\tilde{a}a~ 转换为可执行的动作 aaa,这一过程称为 动作对接(Action Grounding)。
我们明确指示 GPT-4V 模拟人类浏览网页的方式,分析任务、网页以及先前的操作。模型需要基于其分析和推理能力,生成动作描述 a~\tilde{a}a~。在该过程中,我们使用网页截图 iii 作为视觉上下文,而不利用 HTML 文档 hhh 进行动作生成。
尽管 GPT-4V 能够用自然语言识别和描述完成给定任务所需的下一步操作,但将动作描述 a~\tilde{a}a~ 转化为可执行的动作 aaa 仍然具有挑战性。
为了解决此挑战,我们探索了三种不同的信息类型进行 grounding,如图 2 所示:
基于元素属性的对接(Grounding via Element Attributes):
基于文本选择的对接(Grounding via Textual Choices):
基于图像标注的对接(Grounding via Image Annotation):
理想情况下,动作描述 a~\tilde{a}a~ 应包含所有必要的详细信息,以便精确识别动作三元组 (e,o,v)(e, o, v)(e,o,v)。为了评估动作生成的性能,我们采用一种理想对接方法(oracle grounding),即在动作描述中明确提及的变量均可被正确识别。
在实际评估中,我们通过人工标注方式来近似此 oracle 方法,人工标注人员会帮助确认模型所生成的目标动作。
我们在 MIND2WEB(Deng 等, 2023)数据集上评估了我们的方法。该数据集包含超过 2000 个具有标注操作的复杂网页任务,涉及 137 个网站,覆盖 31 个低级域(low-level domains),并被归类为 12 个高级域(high-level domains)。数据集支持三种主要操作:点击(Click)、输入(Type)和选择(Select),同时将“悬停(Hover)”和“回车(Press Enter)”操作整合到点击操作中,以避免歧义。
测试集的目标是衡量网页代理在不同任务、网站和领域中的泛化能力,具体包括以下三种设置:
我们将数据集中每个 HTML 文档与其对应的网页截图图像进行对齐,这些数据经过人工验证,以确保元素的可见性和正确的渲染,以进行动作预测。经过清理后的数据版本称为 Multimodal Mind2Web,相关统计数据见表 1。
SEEACT 方法:
在“基于图像标注”和“基于文本选择”对接策略中,我们首先使用 MindAct(Deng 等, 2023)提出的 DeBERTa-base 交叉编码器,对网页元素进行排名,选出前 50 个最相关元素,以便与文本仅基准进行公平比较。然后,我们将这些元素分成 17 个选项的组,供模型推理。在“基于元素属性”对接策略中,不提供候选元素,直接依靠模型进行推断。
我们在 GPT-4V API 上测试了所有三种 grounding 方法,并将表现最佳的 grounding 方法应用于 Gemini Pro Vision(Anil 等, 2023)和 LLaVA-1.5(Liu 等, 2023a;c)。
MindAct 方法:
为了与 SEEACT 进行比较,我们还实现了基于文本 LLM 和 BLIP-2(Li 等, 2023)的方法,遵循 MindAct 提出的两阶段策略(Deng 等, 2023)。具体来说,首先使用排名器选出前 50 个元素,然后将动作生成问题表述为多项选择题,其中候选元素作为选项,如果目标元素不存在,则包含“无”选项。在推理过程中,元素被分成 5 个一组进行迭代优化,直到做出最终选择或所有选项被丢弃。
我们评估了以下方法:
像素级对接(Pixel-Level Grounding):
LMMs 可以通过在包含对象坐标的扩展数据集上训练,来生成目标元素在图像中的坐标,特别是在开源模型(Hong 等, 2023;Cheng 等, 2024;You 等, 2023)中表现较好。我们选择 CogAgent(Hong 等, 2023)作为该实验的代表模型,并采用 ICL 方法。
各个方法的详细信息见附录 A。
我们采用 MIND2WEB 数据集中的评估指标,包括:
我们对以上指标进行任务级宏平均。此外,还测量任务成功率(Success Rate, SR),该指标要求任务的所有步骤均正确才算成功。由于离线评估不允许模型进行探索和错误修正,因此我们主要关注前三个指标。然而,我们还对实时网站进行在线评估,以更好地衡量整体任务成功率,详细内容见下文。
我们开发了一个新的在线评估工具,使用 Playwright 来评估网页代理在实时网站上的表现(与离线评估中的缓存网站不同)。
我们的工具可以高效地将浏览器中的多模态输入传输到代理,并将预测的动作三元组 (e,o,v)(e, o, v)(e,o,v) 转换为浏览器事件进行执行。
为了遵守道德标准,实验仅限于非登录任务,以确保符合用户协议。此外,在在线评估过程中,我们密切监控代理行为,以防止其执行任何可能产生负面影响的操作,例如下单或修改用户个人信息。
GPT-4V 结合理想对接方法可以成为通用网页代理。
在提供有效的动作对接(grounding)方法的情况下,GPT-4V 具有成为通用网页代理的潜力。具体而言,如第 2.3 节所述,我们通过人工标注为 GPT-4V 提供了理想的动作对接方法(SEEACTOracle),在三个测试集上的步骤成功率分别达到了 61.9%、65.0% 和 62.1%。如表 2 所示,该方法在所有测试集上显著优于其他模型,尤其是在**跨任务(Cross-Task)设置下,其步骤成功率比第二好的方法高出 8.4%。在跨网站(Cross-Website)和跨领域(Cross-Domain)**设置下,SEEACTOracle 分别领先 23.9% 和 23.2%,表明其泛化能力优于监督微调方法。这一发现在在线评估(表 4)中得到了进一步验证。
元素对接方法的比较。
然而,理想对接方法与我们提出的三种对接方法之间仍存在显著差距(见表 3),这表明对接(尤其是元素对接)仍然是主要的瓶颈。
LMMs 与 LLMs 比较。
使用 GPT-4V 的 SEEACTChoice 方法在三个测试集上,在所有指标上都显著优于仅使用文本的 GPT-4。
监督微调(SFT)与上下文学习(ICL)。
我们比较了 SFT 和 ICL 方法,以探索在不同场景下开发网页代理的最优策略。
在在线评估中,我们让网页代理与人工标注员配对,人工标注员负责监控代理的操作,确保其不会更改真实世界的状态,并判断任务是否成功完成。为公平比较,我们将在线评估与离线评估进行对比,并重新编写时间敏感的任务(如更新航班预订日期)以确保测试时的有效性。最终,我们在来自三个测试集的 90 个任务子集上进行了在线评估。
表 4 显示,在在线评估中,整个任务成功率远高于离线评估(Offline0 设置)。这表明离线评估可能低估了模型的整体任务成功率,因为同一任务可能存在多个可行的执行计划,而离线评估仅评估其中之一。
在所有测试设置中,SEEACTChoice(结合 GPT-4V)比 GPT-4 和 FLAN-T5-XL 的整体任务成功率高出 20% 以上。使用理想对接方法(SEEACTOracle)可进一步将任务成功率提高到 51.1%。虽然 GPT-4 在离线评估中表现逊于 FLAN-T5-XL(表 2),但在在线评估中,它的整体任务成功率仍然高出 FLAN-T5-XL 4.4%。
按任务难度分析在线成功率。
我们根据人工标注员在标注过程中执行的动作数量来估算任务难度。图 3 显示,整体任务成功率与任务所需操作数量呈负相关,即任务越复杂,成功率越低。SEEACTOracle 在所有难度级别上均优于其他方法,尤其在长任务上,SEEACTOracle 与 SEEACTChoice 之间的差距扩大。这表明对接错误会在后续步骤中累积,并进一步凸显 GPT-4V 在对接方面的挑战。
基于图像标注的对接错误分析。
我们随机抽取 100 个预测正确但对接失败的示例,发现主要错误类型包括:
54% 的错误是由于 GPT-4V 产生视觉幻觉,错误地假设目标元素存在,而实际上并无相应边界框;46% 的错误来自模型在识别图像中相对位置的局限性。
GPT-4V 在多个方面表现出色,包括:
许多研究致力于改进依赖 HTML 文档的网页代理(Deng 等, 2023;Gur 等, 2023;Kim 等, 2023;Sridhar 等, 2023)。然而,原始 HTML 文档通常庞大,直接将其输入到大型语言模型(LLMs)中通常是不切实际的,或者成本过高。
MindAct(Deng 等, 2023)采用小型语言模型对 HTML 元素进行排名,并选择最相关的元素作为上下文输入。WebAgent(Gur 等, 2023)通过对 HTML 文档进行摘要,并将指令分解为多个子指令,提出了一种增强的规划策略。
另一个研究方向是为网页代理引入视觉信息(Shaw 等, 2023;Furuta 等, 2023;Hong 等, 2023):
尽管上述工作取得了进展,但现有模型在泛化到各种网页环境方面仍面临挑战。因此,SEEACT 探索了最新发布的更强大的多模态模型(LMMs),如 GPT-4V 和 Gemini,并通过全面的在线和离线评估,展示它们作为通用网页代理的潜力。在一项并行研究中(Yan 等, 2023),GPT-4V 在移动 UI 理解方面表现出色,而移动网站的复杂性通常低于桌面端网页。
GPT-4V(OpenAI, 2023)和 Gemini(Anil 等, 2023)代表了 LMMs 的重要进展。多个研究(Akter 等, 2023;OpenAI, 2023;Yang 等, 2023c;Zhang 等, 2023)强调了这些模型在视觉和语言推理能力方面的先进性和多功能性。它们在一系列基准测试(Kazemzadeh 等, 2014;Goyal 等, 2016;Zhong 等, 2023)上的出色表现也进一步证明了其在视觉-语言理解和推理方面的能力。
尽管开源模型与 GPT-4V 之间仍存在性能差距,但它们在可控性和易于针对特定应用进行微调方面具有优势。例如,CogAgent(Hong 等, 2023)在 HTML 和网页截图数据集上进行了微调,以增强网页理解能力,并通过图像编码器改进高分辨率图像的细节处理。Ferret(You 等, 2023)针对视觉引用和对接进行了微调,以提高模型在图像区域识别方面的能力。
尽管 LMMs 在视觉-语言理解方面取得了显著进展,但在细粒度视觉对接方面仍面临挑战。
在本研究中,我们开发了 SEEACT,这是一种通用网页代理,利用 GPT-4V 等大型多模态模型的能力,集成视觉理解和网页操作。我们的研究表明,LMMs 在网页代理任务中具有巨大潜力,在提供理想对接方法的情况下,成功率可达 50%。GPT-4V 还展现出诸如错误修正和推测性规划等强大功能。
然而,细粒度视觉对接仍然是一个主要挑战。本文中探索的最有效对接策略与理想对接仍存在 20-25% 的性能差距。未来研究应充分利用网页的独特特性,例如 HTML 和视觉元素之间的已知对应关系,以改进对接过程并减少 LMMs 的幻觉。此外,在线和离线评估之间存在显著差异,强调了在线评估对于准确评估模型能力的重要性。离线评估往往低估了模型的实际能力,因为同一任务可能存在多种可行的执行方案,而离线评估仅关注其中之一。
通用网页代理有潜力自动化日常网页任务、提升用户体验,并促进网页的可访问性。然而,它们在实际部署过程中也带来了一些安全问题,这些问题需要引起高度关注,例如:
在在线评估过程中,我们注意到这些网页代理可能会生成有害操作,因此在执行之前,人工标注员对所有操作进行了安全验证。未来的研究需进一步评估和缓解这些风险,以确保网页代理不会执行有害操作。
该研究的代码将仅供研究用途,并遵循 OPEN-RAIL 许可证,旨在通过语言技术提高网页的可访问性。我们坚决反对任何滥用该数据或技术的行为。