自主网页导航的进展一直受到以下因素的阻碍:
在本研究中,我们探讨了基于视觉-语言基础模型的数据驱动离线训练方法,以改进网页代理的性能。我们提出了一种名为 WebGUM 的指令跟随多模态代理,该代理能够同时观察网页截图和HTML 页面,并输出网页导航操作,例如点击和输入文本等。
WebGUM 通过联合微调一个指令微调的语言模型和一个视觉编码器进行训练,同时采用时间感知和局部感知,基于大量演示数据集实现学习。
实验结果表明,该方法显著提升了代理在以下方面的能力:
与现有方法相比,WebGUM 在多个基准测试中取得了显著优势:
此外,我们使用训练好的模型收集了347,000 个高质量演示样本,规模是以往工作的38 倍,并公开这些数据以促进该领域的未来研究。
网页导航是一类序列决策问题,其中代理根据用户指令与网页界面交互(Shi 等, 2017;Liu 等, 2018;Gur 等, 2019)。常见的网页导航任务包括:
近年来,越来越多的研究致力于开发自动化代理,以减少人类在这些重复交互中的工作量(Mazumder & Riva, 2020;Li 等, 2020;Shvo 等, 2021)。
大多数现有研究将网页导航问题视为在线强化学习(RL),试图通过任务特定的模型从零开始学习最优的动作分布(Liu 等, 2018;Gur 等, 2019;Jia 等, 2019;Humphreys 等, 2022)。然而,在线强化学习面临诸多挑战:
相较之下,基于静态数据集的离线训练为网页代理提供了安全的开发环境,但其性能往往低于在线强化学习的方法(Humphreys 等, 2022;Gur 等, 2022)。
此外,许多先前的研究无法充分利用丰富的跨领域数据来提高泛化能力。原因在于:
这些研究通常采用专门设计的模型来显式处理文档对象模型(DOM)的层次结构及其依赖关系,例如:
许多方法仅输出一组固定的分类操作(如点击、输入等)(Humphreys 等, 2022),这在真实世界的开放式网页导航场景中并不理想,无法适应灵活多变的任务需求。
综上所述,本研究旨在探索新的方法,以克服当前网页导航领域的局限性,并提高代理在开放式网页环境中的泛化能力和安全性。
近年来,基础模型(Foundation Models)(Bommasani 等, 2021),特别是大语言模型(LLM)(Brown 等, 2020;Chowdhery 等, 2022)在常识推理、符号推理、算术推理和多步逻辑推理方面表现出卓越的性能(Wei 等, 2022b;c;Kojima 等, 2022)。
这些模型能够实现变革性的泛化能力,并可以在实际应用中解决多种交互式决策问题,包括但不限于:
在本研究中,我们利用预训练的视觉-语言基础模型,提出了一种用于自主网页代理的高效离线学习方案。具体而言,我们的主要创新包括以下四个方面:
多模态感知的引入
指令微调的语言模型
大规模多模态数据集
自由格式的文本输出
通过这四个关键要素,我们提出了基于真实环境理解模型的网页导航代理(Web navigation via Grounded Understanding Models, WebGUM)。
如图 1 所示,WebGUM 在网页任务中接收自然语言指令,例如:
"请在电子邮件客户端中查找 Gisele 的电子邮件,并将其转发给 Siana。"
模型通过多模态感知计算机界面(网页截图 + HTML 结构),并通过一系列计算机操作(如点击、输入)完成任务。
MiniWoB++ 基准测试(Shi 等, 2017;Liu 等, 2018):
与人类和私有 LLM 代理对比(Kim 等, 2023;Sun 等, 2023):
我们进行了深入的消融实验和分析,以验证 WebGUM 在以下方面的优势:
时序和局部多模态感知能力
数据集和模型规模扩展能力
更好的 HTML 理解能力
多步推理能力
WebShop 基准测试(Yao 等, 2022a)
Mind2Web 基准测试
综上所述,WebGUM 通过多模态感知、HTML 理解和多步推理的结合,在网页自动化领域实现了显著突破,为未来更强大的自主网页代理奠定了基础。
最终,我们在 MiniWoB++ 上收集了 347,000 个多模态专家示范数据,比现有的单模态数据集(Liu 等, 2018)大 38 倍,并将其公开以促进未来研究【1】。
我们认为,利用基础模型(foundation models)进行高效的离线训练,是实现真实世界网页自动化的可扩展方案,尤其是在在线交互成本极高的情况下。
在自主网页导航领域,已经提出了多种基准测试(Toyama 等, 2021;Burns 等, 2022;Yao 等, 2022a),其中最具代表性和包容性的基准之一是 MiniWoB++(Shi 等, 2017;Liu 等, 2018)。
该基准测试由一组模拟网站组成,涉及从基础操作到复杂的多步决策任务,例如发送电子邮件或预订航班。
以往的研究尝试使用多种技术来解决该基准测试:
在线强化学习(RL)方法
监督学习(SL)方法
如附录 I 所示,许多现有方法依赖于基于任务的 DOM 层次结构(Jia 等, 2019;He 等, 2020),以及特定架构来编码依赖关系,例如:
此外,现有方法往往使用基于任务的分类输出空间(Humphreys 等, 2022),这些方法无法处理真实世界中的开放式多任务场景,或无法充分利用预训练模型。
与此不同,我们提出了一种新的方法:
这种方法使我们能够充分利用预训练基础模型(如 Chung 等, 2022;Dosovitskiy 等, 2020),并即便通过离线训练也能学到强大的网页代理。
在附录 B中,我们进一步探讨了关于多模态大规模模型和用于决策的基础模型的相关研究。
我们将自主网页导航建模为确定性序列决策问题,其组成如下:
在每个时间步 ttt,代理遵循基于先前状态和动作的参数化策略:
π:S×...×St×A×...×At×G→A\pi : S \times ... \times S_t \times A \times ... \times A_t \times G \rightarrow Aπ:S×...×St×A×...×At×G→A
并转换到下一个状态:
st+1=T(st,at)s_{t+1} = T(s_t, a_t)st+1=T(st,at)
该过程持续进行,直到代理达到终止状态(例如点击“提交”按钮)或超过最大时间步数。
如果代理满足给定的指令 ggg(即 r(st,g,at)=1r(s_t, g, a_t) = 1r(st,g,at)=1),则视为成功;如果执行无效操作或到达错误的终止状态,则视为失败。
在自主网页导航中,状态 st∈Ss_t \in Sst∈S 由以下两个部分组成:
遵循先前的研究(Shi 等, 2017;Liu 等, 2018;Gur 等, 2019;2021),我们假设受限的动作空间,其格式如下:
function(selector, text)\text{function(selector, text)}function(selector, text)
"click"
或 "type"
操作,type
操作时的文本输入。图 1 展示了 MiniWoB(Shi 等, 2017)环境中的一个示例回合,涉及多步决策过程。代理需要点击正确的发件人电子邮件,并输入正确的接收人地址以转发该电子邮件。MiniWoB 还包括基础的行为任务,如点击按钮或输入文本。
关于 WebShop(Yao 等, 2022a)基准测试的示例,请参阅附录 L。
在本研究中,我们借鉴 Gur 等(2022)的研究,使用 T5(Raffel 等, 2020)作为网页导航的基础架构。
为了增强模型的多模态能力,我们将 T5 与 视觉 Transformer(ViT)(Dosovitskiy 等, 2020)结合,如图 2 所示。
具体而言:
视觉 Transformer(ViT)
T5 编码器
有关更详细的实现细节,请参见附录 C。
为了让语言模型了解任务的时序信息和局部场景识别,编码器会从历史截图中提取多模态令牌(历史步数 H=2)。
具体实现:
我们基于 Flan-T5(Chung 等, 2022),一个经过指令微调的 T5,而不是像 Gur 等(2022)那样使用原始预训练的 T5。
此外,这些高性能的指令微调模型可以提高样本效率和下游任务性能,非常适合离线学习。
我们进一步联合微调了 Flan-T5 语言模型和 ViT 视觉编码器(见图 2),使用大量指令跟随的多模态网页导航数据集进行训练(详见第 4.3 节)。
在第 5 节的实验中,我们实证表明,这种指令微调方法显著改善了 HTML 理解、多步推理和决策能力。
基础模型的成功在很大程度上得益于互联网规模的数据(Brown 等, 2020;Radford 等, 2021;Chen 等, 2022;Wang 等, 2023)。尽管大量数据是关键,但在网页导航领域,公开数据集非常有限,例如 MiniWoB++ 只有 12K 个由人类演示的数据(Liu 等, 2018)。
为在 MiniWoB++ 上收集大规模的多模态行为数据集,我们使用了 Gur 等(2022) 提出的微调后的 LLM 策略,而不是依赖于人类演示者(Liu 等, 2018;Humphreys 等, 2022)。这种方法显著降低了构建新数据集的成本,同时利用了自主代理的成功经验。
具体过程:
这种方法结合了自主代理与大语言模型的能力,大大扩展了现有的多模态网页导航数据集规模。
我们将 WebGUM 与 Synapse(Zheng 等, 2023)相结合,后者是一种基于私有大语言模型(LLM)并依赖提示工程的代理,主要用于那些微调 LLM 无法很好完成的任务。
这一方法的努力最终构建了一个多任务数据集,包含 401K(347K + 54K) 个回合,每个步骤均包含 HTML 和网页截图。有关详细信息,请参阅附录 F。
我们在 MiniWoB++(Shi 等, 2017;Liu 等, 2018)上对所提出的方法进行了测试,每个任务评估 100 个回合,最终结果取自 Gur 等(2022)提供的 56 个任务的平均成功率。
表 1 结果显示:
这一成就得益于我们提出的网页导航问题简化,充分利用了时序-局部视觉感知和指令微调 LLM,在网页环境中提供了强大的归纳偏差。
此外,随着数据集和模型规模的扩展,WebGUM 达到了 94.2% 的成功率,相较于先前最优的离线模型 WebN-T5(Gur 等, 2022),提高了45.8%,甚至超过了在线 RL 微调的 SOTA 方法 CC-Net(Humphreys 等, 2022),超出 0.7%,尽管我们采用的是完全离线训练且数据量更少。
其他关键结果:
在接下来的部分,我们将对 WebGUM 进行广泛且精确的消融实验,以明确性能提升的来源。
我们重点关注以下方面:
时序与局部多模态感知能力(第 5.1 节)
数据集与模型规模扩展(第 5.2 节)
更好的 HTML 理解能力(第 5.3 节)
多步推理能力(第 5.4 节)
在真实世界任务中的可迁移性(第 5.5 节)
为了验证图像模态的重要性,我们设计了以下三类消融实验:
输入替换(Input Replacement)
去除视觉感知令牌(Removing Visual Tokens)
不同预训练 ViT 模型的比较(Employing Different Pre-trained ViT)
此外,我们评估了基于以下自监督学习目标的模型:
在消融实验中,我们微调了Base 级别的模型,以作为更大规模模型的代理,以减少计算成本(Hoffmann 等, 2022)。
这些实验有助于识别 WebGUM 关键改进的来源,并提供有价值的见解,说明如何在网页导航任务中高效利用视觉感知和指令微调的 LLM。
在图 3(左)中,使用纯白图像的模型性能与单模态模型相当。这表明图像信息在某些情况下可能不是决定性因素。然而,当模型使用随机截取的网页截图时,性能略优于纯白图像的版本,可能是因为某些随机截图偶然包含了目标任务相关的图像信息。
这些结果证明,WebGUM 通过利用时序和局部视觉感知,成功获得了扎实的视觉和 HTML 理解能力。
在视觉令牌消融实验中,图 4(左)显示,同时结合时序和局部视觉令牌的模型(成功率 66.1%)比仅使用时序令牌(64.2%)或局部令牌(64.0%)的模型表现更好。
此外,与视觉令牌相比,不同预训练 ViT(视觉 Transformer)的影响较小,这进一步突出了我们在多模态网页导航架构设计方面的贡献。
在任务级别的分析中(图 3 右):
本节探讨 WebGUM 数据集和模型规模扩展的重要性,这与语言和视觉领域的研究观察一致(Shoeybi 等, 2019;Kaplan 等, 2020;Rae 等, 2021;Wei 等, 2022b;Chowdhery 等, 2022)。
实验过程:
WebGUM 仅使用 30 亿参数,但由于其一致的推理能力和对用户意图的增强对齐,能够在产品比较过程中进行回溯搜索,并选择最佳选项(详见附录 L)。
这些结果表明,Flan-T5 具备的多步推理能力在下游决策任务中可以作为强大且可迁移的先验知识。
我们进一步验证了 WebGUM 在真实世界问题中的适用性。
我们在 Mind2Web(Deng 等, 2023)上测试了 WebGUM,该数据集包含来自 137 个网站的大约 2000 条真实网页导航指令。
实验过程:
在行动预测任务中,WebGUM 采用以下输入信息:
模型的输出包括:
结果(见表 3):
在本文中,我们提出了一种高效且实用的方法,将网页导航简化为离线训练,以充分利用指令微调 LLM 的网页环境归纳偏差。
尽管 WebGUM 在 Mind2Web 上表现出了良好的迁移能力,但我们仍需在未来的工作中扩展多模态基础模型,以实现真实世界网页导航的实际部署(Gur 等, 2023)。
当前工作局限性:
数据规模不足:
架构适应性:
泛化能力:
我们提出了 WebGUM(Web navigation via Grounded Understanding Models),这是一种基于指令微调的视觉-语言基础模型,专为网页导航任务而设计。
主要成就:
多步推理能力使 WebGUM 在分布外任务中具有更强的泛化能力,并在 WebShop 上超越了 PaLM-540B。
WebGUM 还在 Mind2Web 的真实世界行动预测任务中展现了强大的正向迁移能力。
此外,我们将现有的 MiniWoB++ 数据集扩展至 347K 多模态专家示范数据,约为原始规模的 38 倍。
未来展望:
我们相信,WebGUM 是迈向更强大、可扩展的自主网页导航模型的重要一步。