feifeikon

大模型GUI系列论文阅读 DAY2续2：《使用指令微调基础模型的多模态网页导航》

摘要

自主网页导航的进展一直受到以下因素的阻碍：

依赖于数十亿次的探索性交互（通常采用在线强化学习），
依赖于特定领域的模型设计，难以利用丰富的跨领域数据进行泛化。

在本研究中，我们探讨了基于视觉-语言基础模型的数据驱动离线训练方法，以改进网页代理的性能。我们提出了一种名为 WebGUM 的指令跟随多模态代理，该代理能够同时观察网页截图和HTML 页面，并输出网页导航操作，例如点击和输入文本等。

WebGUM 通过联合微调一个指令微调的语言模型和一个视觉编码器进行训练，同时采用时间感知和局部感知，基于大量演示数据集实现学习。

实验结果表明，该方法显著提升了代理在以下方面的能力：

基于真实环境的多模态感知能力，
HTML 理解能力，
多步推理能力。

与现有方法相比，WebGUM 在多个基准测试中取得了显著优势：

在 MiniWoB 基准测试中，我们相比之前最好的离线方法，性能提升了45.8% 以上，甚至超越了在线微调的 SoTA、真人以及基于 GPT-4 的代理。
在 WebShop 基准测试中，我们的 30 亿参数模型性能优于现有最先进模型 PaLM-540B。
在 Mind2Web 真实世界规划任务中，WebGUM 也表现出了强大的正迁移能力。

此外，我们使用训练好的模型收集了347,000 个高质量演示样本，规模是以往工作的38 倍，并公开这些数据以促进该领域的未来研究。

1 引言

网页导航是一类序列决策问题，其中代理根据用户指令与网页界面交互（Shi 等, 2017；Liu 等, 2018；Gur 等, 2019）。常见的网页导航任务包括：

表单填写（Diaz 等, 2013），
信息检索（Nogueira & Cho, 2016；Adolphs 等, 2022），
通过一系列点击或输入操作发送电子邮件（见图 1）。

近年来，越来越多的研究致力于开发自动化代理，以减少人类在这些重复交互中的工作量（Mazumder & Riva, 2020；Li 等, 2020；Shvo 等, 2021）。

现有研究的局限性

大多数现有研究将网页导航问题视为在线强化学习（RL），试图通过任务特定的模型从零开始学习最优的动作分布（Liu 等, 2018；Gur 等, 2019；Jia 等, 2019；Humphreys 等, 2022）。然而，在线强化学习面临诸多挑战：

需要进行大量的试错过程，在实际应用中往往不可行，
导航失败可能导致严重后果，例如：
- 错误输入密码可能导致账户冻结，
- 在商业场景中，错误发送邮件可能引发业务问题。

相较之下，基于静态数据集的离线训练为网页代理提供了安全的开发环境，但其性能往往低于在线强化学习的方法（Humphreys 等, 2022；Gur 等, 2022）。

此外，许多先前的研究无法充分利用丰富的跨领域数据来提高泛化能力。原因在于：

这些研究通常采用专门设计的模型来显式处理文档对象模型（DOM）的层次结构及其依赖关系，例如：
- 使用 LSTM 处理结构化数据（Gur 等, 2019；2021），
- 使用 自注意力机制（Self-Attention） 进行结构建模（Liu 等, 2018），
- 采用 图神经网络（GNN） 建模 DOM 依赖关系（Jia 等, 2019）。
许多方法仅输出一组固定的分类操作（如点击、输入等）（Humphreys 等, 2022），这在真实世界的开放式网页导航场景中并不理想，无法适应灵活多变的任务需求。

综上所述，本研究旨在探索新的方法，以克服当前网页导航领域的局限性，并提高代理在开放式网页环境中的泛化能力和安全性。

最近进展与本研究贡献

近年来，基础模型（Foundation Models）（Bommasani 等, 2021），特别是大语言模型（LLM）（Brown 等, 2020；Chowdhery 等, 2022）在常识推理、符号推理、算术推理和多步逻辑推理方面表现出卓越的性能（Wei 等, 2022b;c；Kojima 等, 2022）。

这些模型能够实现变革性的泛化能力，并可以在实际应用中解决多种交互式决策问题，包括但不限于：

机器人任务规划（Huang 等, 2022a;b；Shah 等, 2022；Ahn 等, 2022），
桌面游戏（Meta Fundamental AI Research Diplomacy Team 等, 2022），
网页检索和浏览器爬取（Nakano 等, 2021；Yao 等, 2022b；Zaheer 等, 2022）。

本研究方法

在本研究中，我们利用预训练的视觉-语言基础模型，提出了一种用于自主网页代理的高效离线学习方案。具体而言，我们的主要创新包括以下四个方面：

多模态感知的引入
- 我们假设，基于真实环境的空间理解对网页导航至关重要（Humphreys 等, 2022；Toyama 等, 2021）。
- 为此，我们将语言模型与视觉 Transformer（ViT）（Dosovitskiy 等, 2020）结合，形成具有局部和时序信息感知能力的语义丰富的多模态嵌入，使代理能够同时处理网页截图和 HTML 页面。
指令微调的语言模型
- 我们认为，网页导航本质上是指令跟随任务，因此采用指令微调的 LLM（Wei 等, 2022a；Chung 等, 2022；Ouyang 等, 2022；Iyer 等, 2022），而非像 Gur 等（2022）采用的自监督预训练模型（Raffel 等, 2020；Brown 等, 2020）。
大规模多模态数据集
- 我们收集了包含 HTML 和网页截图的大规模多模态数据集，用于对语言模型和 ViT 进行联合微调，以提高模型的泛化能力。
自由格式的文本输出
- 我们的模型以自由格式文本输出网页导航动作（例如点击、输入等），以提高操作的灵活性和适应性。

通过这四个关键要素，我们提出了基于真实环境理解模型的网页导航代理（Web navigation via Grounded Understanding Models, WebGUM）。

WebGUM 的工作流程

如图 1 所示，WebGUM 在网页任务中接收自然语言指令，例如：

"请在电子邮件客户端中查找 Gisele 的电子邮件，并将其转发给 Siana。"

模型通过多模态感知计算机界面（网页截图 + HTML 结构），并通过一系列计算机操作（如点击、输入）完成任务。

实验结果

MiniWoB++ 基准测试（Shi 等, 2017；Liu 等, 2018）：
- 在此模拟网页导航环境下，WebGUM 在仅使用离线训练的情况下，性能较先前最优的基于 HTML 输入的离线方法（Gur 等, 2022）提高了45.8%，
- 甚至超越了在线强化学习（RL）方法（Humphreys 等, 2022）、人类，以及基于 GPT-4 的代理。
与人类和私有 LLM 代理对比（Kim 等, 2023；Sun 等, 2023）：
- WebGUM 在多个基准测试上表现出色，证明其在多模态感知、HTML 理解、多步推理方面的优势。

WebGUM 的关键优势分析（详见第 5 节）

我们进行了深入的消融实验和分析，以验证 WebGUM 在以下方面的优势：

时序和局部多模态感知能力
- 结合视觉和 HTML，能够更好地理解网页的动态变化，例如航班预订（+50%）、形状识别（+22%）、社交媒体爬取（+21%）。
数据集和模型规模扩展能力
- 证明大规模数据集和更大的模型规模能显著提升性能。
更好的 HTML 理解能力
- 采用基于 HTML 结构的微调方法，使模型更适应复杂网页任务。
多步推理能力
- 使用指令微调的语言模型（如 Chung 等, 2022），与自监督预训练模型（如 Raffel 等, 2020）相比，MiniWoB++ 成功率提高了 25%。
- 特别是在处理任务的未知组合和跨分布 HTML 输入方面表现突出。

其他基准测试表现

WebShop 基准测试（Yao 等, 2022a）
- 结果表明，语言模型的多步推理能力使其优于现有的最先进模型，例如 PaLM-540B（Yao 等, 2022b；Chowdhery 等, 2022）。
- WebGUM 仅使用 30 亿参数，即可超越 PaLM-540B。
Mind2Web 基准测试
- WebGUM 在真实世界任务预测方面展现出良好的迁移能力，能够处理复杂的跨任务操作。

综上所述，WebGUM 通过多模态感知、HTML 理解和多步推理的结合，在网页自动化领域实现了显著突破，为未来更强大的自主网页代理奠定了基础。

GPT-4 及数据集贡献

最终，我们在 MiniWoB++ 上收集了 347,000 个多模态专家示范数据，比现有的单模态数据集（Liu 等, 2018）大 38 倍，并将其公开以促进未来研究【1】。

我们认为，利用基础模型（foundation models）进行高效的离线训练，是实现真实世界网页自动化的可扩展方案，尤其是在在线交互成本极高的情况下。

2 相关工作

网页导航

在自主网页导航领域，已经提出了多种基准测试（Toyama 等, 2021；Burns 等, 2022；Yao 等, 2022a），其中最具代表性和包容性的基准之一是 MiniWoB++（Shi 等, 2017；Liu 等, 2018）。

该基准测试由一组模拟网站组成，涉及从基础操作到复杂的多步决策任务，例如发送电子邮件或预订航班。

以往的研究尝试使用多种技术来解决该基准测试：

在线强化学习（RL）方法
- Liu 等（2018）和 Gur 等（2019；2021）使用高层工作流（Liu 等, 2018）或课程学习（curriculum learning）（Gur 等, 2019；2021）作为在线 RL 过程的指导。
- 但是，这些方法需要为每个任务单独设计，因此不具备可扩展性。
监督学习（SL）方法
- Humphreys 等（2022）采用大规模数据集进行监督学习，随后使用 RL 微调。
- Gur 等（2022）结合基于 LLM 的代理进行监督学习。
- 然而，离线监督学习代理通常表现不佳，而在线 RL 需要大量探索经验，虽然在网页导航中至关重要，但在真实网站上难以实施，因为通常没有奖励信号，且交互成本极高。

如附录 I 所示，许多现有方法依赖于基于任务的 DOM 层次结构（Jia 等, 2019；He 等, 2020），以及特定架构来编码依赖关系，例如：

LSTM（Gur 等, 2019；2021），
自注意力机制（Self-Attention）（Liu 等, 2018），
图神经网络（GNN）（Jia 等, 2019）。

此外，现有方法往往使用基于任务的分类输出空间（Humphreys 等, 2022），这些方法无法处理真实世界中的开放式多任务场景，或无法充分利用预训练模型。

与此不同，我们提出了一种新的方法：

取消了这些特定于网页的架构，
将网页导航任务转化为**视觉问答（VQA）**问题，即 文本 + 图像 → 文本。

这种方法使我们能够充分利用预训练基础模型（如 Chung 等, 2022；Dosovitskiy 等, 2020），并即便通过离线训练也能学到强大的网页代理。

附录 B：额外的相关工作

在附录 B中，我们进一步探讨了关于多模态大规模模型和用于决策的基础模型的相关研究。

3 预备知识

我们将自主网页导航建模为确定性序列决策问题，其组成如下：

状态空间（State Space, S）
动作空间（Action Space, A）
确定性状态转移函数（Transition Function, T）: T:S×A→ST: S \times A \rightarrow ST:S×A→S
指令空间（Instruction Space, G）
奖励函数（Reward Function, r）（或基于回合的成功标准）： r:S×G×A→{0,1}r: S \times G \times A \rightarrow \{0,1\}r:S×G×A→{0,1}

在每个时间步 ttt，代理遵循基于先前状态和动作的参数化策略：

π:S×...×St×A×...×At×G→A\pi : S \times ... \times S_t \times A \times ... \times A_t \times G \rightarrow Aπ:S×...×St×A×...×At×G→A

并转换到下一个状态：

st+1=T(st,at)s_{t+1} = T(s_t, a_t)st+1=T(st,at)

该过程持续进行，直到代理达到终止状态（例如点击“提交”按钮）或超过最大时间步数。

如果代理满足给定的指令 ggg（即 r(st,g,at)=1r(s_t, g, a_t) = 1r(st,g,at)=1），则视为成功；如果执行无效操作或到达错误的终止状态，则视为失败。

在自主网页导航中，状态 st∈Ss_t \in Sst∈S 由以下两个部分组成：

网页的原始 HTML（作为文本序列输入），
网页截图（作为图像输入）。

遵循先前的研究（Shi 等, 2017；Liu 等, 2018；Gur 等, 2019；2021），我们假设受限的动作空间，其格式如下：

function(selector, text)\text{function(selector, text)}function(selector, text)

function：包括 "click" 或 "type" 操作，
selector：一个唯一标识网页元素的整数索引，
text：当执行 type 操作时的文本输入。

图 1 展示了 MiniWoB（Shi 等, 2017）环境中的一个示例回合，涉及多步决策过程。代理需要点击正确的发件人电子邮件，并输入正确的接收人地址以转发该电子邮件。MiniWoB 还包括基础的行为任务，如点击按钮或输入文本。

关于 WebShop（Yao 等, 2022a）基准测试的示例，请参阅附录 L。

4 WebGUM

4.1 具有时序和局部感知能力的多模态 Transformer 模型

在本研究中，我们借鉴 Gur 等（2022）的研究，使用 T5（Raffel 等, 2020）作为网页导航的基础架构。

T5 采用编码-解码（encoder-decoder）架构，其双向编码能力非常适合 HTML 的树状结构，
该架构已被证明具有良好的扩展性，能够处理大型文本数据。

为了增强模型的多模态能力，我们将 T5 与 视觉 Transformer（ViT）（Dosovitskiy 等, 2020）结合，如图 2 所示。

具体而言：

视觉 Transformer（ViT）
- 预训练于 ImageNet-21K 分类任务（Deng 等, 2009），
- 将网页截图（图像观察）映射为图像令牌（image tokens）。
T5 编码器
- 统一处理视觉令牌和HTML 令牌，形成一个融合的多模态表示，
- T5 解码器则以文本形式预测网页操作（如“点击”或“输入”）。

有关更详细的实现细节，请参见附录 C。

编码时序和局部视觉令牌

为了让语言模型了解任务的时序信息和局部场景识别，编码器会从历史截图中提取多模态令牌（历史步数 H=2）。

时序视觉令牌：有助于在多步任务中预测一致的动作。
局部视觉令牌：为更好地提取网站局部区域的空间和语义信息，我们的 ViT 对每个图像块（patch）生成一个局部令牌，而不是对整张图像生成一个全局令牌（如 CLS-token）。

具体实现：

将输入图像划分为 16×1616 \times 1616×16 的图像块，得到 14×14（图像块数）×2（时序窗口）=39214 \times 14 \text{（图像块数）} \times 2 \text{（时序窗口）} = 39214×14（图像块数）×2（时序窗口）=392 个视觉令牌。
对 MiniWoB++ 的截图进行裁剪，去掉顶部的黄色指令部分，将图像尺寸调整为 160×160160 \times 160160×160。
使用白色像素填充裁剪后的图像，调整为 224×224224 \times 224224×224（ViT 默认输入大小）。

4.2 指令微调的大语言模型

我们基于 Flan-T5（Chung 等, 2022），一个经过指令微调的 T5，而不是像 Gur 等（2022）那样使用原始预训练的 T5。

Flan-T5 通过大规模的指令跟随任务和多领域的链式推理示例（包括推理和编程任务）进行微调。
鉴于网页导航本质上是一个指令跟随任务，我们假设经过精心微调的指令模型能够很好地泛化，增强与用户指令的对齐能力，以及在网页导航和交互式决策中的零样本推理能力。

此外，这些高性能的指令微调模型可以提高样本效率和下游任务性能，非常适合离线学习。

我们进一步联合微调了 Flan-T5 语言模型和 ViT 视觉编码器（见图 2），使用大量指令跟随的多模态网页导航数据集进行训练（详见第 4.3 节）。

在第 5 节的实验中，我们实证表明，这种指令微调方法显著改善了 HTML 理解、多步推理和决策能力。

4.3 使用语言模型代理的大规模数据收集

基础模型的成功在很大程度上得益于互联网规模的数据（Brown 等, 2020；Radford 等, 2021；Chen 等, 2022；Wang 等, 2023）。尽管大量数据是关键，但在网页导航领域，公开数据集非常有限，例如 MiniWoB++ 只有 12K 个由人类演示的数据（Liu 等, 2018）。

此外，该数据集仅包含 DOM 观察结果，缺乏任何视觉特征，这限制了对网页元素精确空间感知的能力。
因此，需要一个包含网页截图在内的大规模多模态数据集，以构建更强大的导航策略。

为在 MiniWoB++ 上收集大规模的多模态行为数据集，我们使用了 Gur 等（2022） 提出的微调后的 LLM 策略，而不是依赖于人类演示者（Liu 等, 2018；Humphreys 等, 2022）。这种方法显著降低了构建新数据集的成本，同时利用了自主代理的成功经验。

具体过程：

初始数据生成
- 我们为每个任务运行 100 个回合的 LLM 策略，生成 2.8K 个成功的回合数据。
模型微调与扩展
- 使用这个小数据集微调 Flan-T5-XL 模型，并对每个任务运行 10,000 个回合。
额外示范数据收集
- 最后收集了额外的 54K 个演示数据。

这种方法结合了自主代理与大语言模型的能力，大大扩展了现有的多模态网页导航数据集规模。

与 Synapse 代理的结合与数据集扩展

我们将 WebGUM 与 Synapse（Zheng 等, 2023）相结合，后者是一种基于私有大语言模型（LLM）并依赖提示工程的代理，主要用于那些微调 LLM 无法很好完成的任务。

这一方法的努力最终构建了一个多任务数据集，包含 401K（347K + 54K） 个回合，每个步骤均包含 HTML 和网页截图。有关详细信息，请参阅附录 F。

5 结果

我们在 MiniWoB++（Shi 等, 2017；Liu 等, 2018）上对所提出的方法进行了测试，每个任务评估 100 个回合，最终结果取自 Gur 等（2022）提供的 56 个任务的平均成功率。

表 1 结果显示：

WebGUM 在仅使用2.8K 数据集和Base 级别模型（310M 参数）的情况下，显著优于先前所有离线网页导航方法（Humphreys 等, 2022；Gur 等, 2022）。
相比之下，先前的方法使用了 240 万回合或30 亿参数，而 WebGUM 通过更高效的数据和参数利用，达到了更优越的离线性能。

这一成就得益于我们提出的网页导航问题简化，充分利用了时序-局部视觉感知和指令微调 LLM，在网页环境中提供了强大的归纳偏差。

此外，随着数据集和模型规模的扩展，WebGUM 达到了 94.2% 的成功率，相较于先前最优的离线模型 WebN-T5（Gur 等, 2022），提高了45.8%，甚至超过了在线 RL 微调的 SOTA 方法 CC-Net（Humphreys 等, 2022），超出 0.7%，尽管我们采用的是完全离线训练且数据量更少。

其他关键结果：

WebGUM 的性能超越了人类以及最近的基于大语言模型的代理，例如 RCI（Kim 等, 2023）和 AdaPlanner（Sun 等, 2023），甚至在 GPT-4（OpenAI, 2023）的对比下依然表现优异。
任务级别的对比和错误分析（详见附录 G 和 L）表明，在需要记忆能力的复杂推理任务（如猜数字游戏）中，仍存在改进空间。

消融实验与改进来源分析

在接下来的部分，我们将对 WebGUM 进行广泛且精确的消融实验，以明确性能提升的来源。

我们重点关注以下方面：

时序与局部多模态感知能力（第 5.1 节）
- 研究架构、预训练模型对感知能力的贡献。
数据集与模型规模扩展（第 5.2 节）
- 分析如何扩大数据集和模型提高导航性能。
更好的 HTML 理解能力（第 5.3 节）
- 通过指令微调改进网页元素解析能力。
多步推理能力（第 5.4 节）
- 研究指令微调的 LLM 在复杂任务中的效果。
在真实世界任务中的可迁移性（第 5.5 节）
- 证明 WebGUM 能够推广到实际网页自动化任务。

5.1 时序与局部视觉感知在网页导航中的作用

为了验证图像模态的重要性，我们设计了以下三类消融实验：

输入替换（Input Replacement）
- 将真实图像观察替换为纯白图片，
- 或在测试时随机使用 MiniWoB++ 初始状态的截图。
去除视觉感知令牌（Removing Visual Tokens）
- 研究去除视觉输入对性能的影响。
不同预训练 ViT 模型的比较（Employing Different Pre-trained ViT）
- 采用多种预训练权重，包括：
  - ImageNet-21K + AugReg（Steiner 等, 2022），
  - JFT-300M（Sun 等, 2017），
  - JFT-3B（Zhai 等, 2022）。

此外，我们评估了基于以下自监督学习目标的模型：

CLIP（Radford 等, 2021），
MAE（Masked Autoencoder）（He 等, 2021），
DINO（Self-supervised Vision Representation）（Caron 等, 2021）。

在消融实验中，我们微调了Base 级别的模型，以作为更大规模模型的代理，以减少计算成本（Hoffmann 等, 2022）。

这些实验有助于识别 WebGUM 关键改进的来源，并提供有价值的见解，说明如何在网页导航任务中高效利用视觉感知和指令微调的 LLM。

视觉模态对模型性能的影响

在图 3（左）中，使用纯白图像的模型性能与单模态模型相当。这表明图像信息在某些情况下可能不是决定性因素。然而，当模型使用随机截取的网页截图时，性能略优于纯白图像的版本，可能是因为某些随机截图偶然包含了目标任务相关的图像信息。

这些结果证明，WebGUM 通过利用时序和局部视觉感知，成功获得了扎实的视觉和 HTML 理解能力。

在视觉令牌消融实验中，图 4（左）显示，同时结合时序和局部视觉令牌的模型（成功率 66.1%）比仅使用时序令牌（64.2%）或局部令牌（64.0%）的模型表现更好。

此外，与视觉令牌相比，不同预训练 ViT（视觉 Transformer）的影响较小，这进一步突出了我们在多模态网页导航架构设计方面的贡献。

在任务级别的分析中（图 3 右）：

在多步任务（如“预订航班”任务，+50% 成功率提升）或需要视觉上下文理解的任务（如“点击形状”任务，+22% 成功率提升）中，WebGUM 通过视觉输入获得了显著改进（详见附录 G 和 L）。

5.2 数据集和模型规模的扩展效应

本节探讨 WebGUM 数据集和模型规模扩展的重要性，这与语言和视觉领域的研究观察一致（Shoeybi 等, 2019；Kaplan 等, 2020；Rae 等, 2021；Wei 等, 2022b；Chowdhery 等, 2022）。

实验过程：

我们准备了三种不同规模的数据集：
- 2.8K 个示范样本（最小数据集），
- 347K 个示范样本（完整数据集），
- **68K

5.4 交互式决策中的多步推理能力

WebGUM 仅使用 30 亿参数，但由于其一致的推理能力和对用户意图的增强对齐，能够在产品比较过程中进行回溯搜索，并选择最佳选项（详见附录 L）。

这些结果表明，Flan-T5 具备的多步推理能力在下游决策任务中可以作为强大且可迁移的先验知识。

5.5 强大的迁移能力：从模拟环境到真实世界的行动预测

我们进一步验证了 WebGUM 在真实世界问题中的适用性。

我们在 Mind2Web（Deng 等, 2023）上测试了 WebGUM，该数据集包含来自 137 个网站的大约 2000 条真实网页导航指令。

实验过程：

首先，使用在 MiniWoB++ 上微调的 WebGUM（训练于 401K 数据集）。
然后，在 Mind2Web 训练集上进行进一步微调，以适应真实世界任务。

在行动预测任务中，WebGUM 采用以下输入信息：

前 50 个最相关的 HTML 片段，
用户指令，
历史操作记录。

模型的输出包括：

目标元素 ID，
操作类型（如点击、输入），
操作值。

结果（见表 3）：

迁移自 MiniWoB++ 的 WebGUM 在所有评估类别（跨任务、跨网站、跨领域）中，表现均优于 MindAct-Large/XL，甚至超越了 GPT-4。
由于 MindAct 和 WebGUM 均基于 Flan-T5，这些结果进一步支持了 WebGUM 在真实世界任务中的强迁移能力。

6 讨论与局限性

在本文中，我们提出了一种高效且实用的方法，将网页导航简化为离线训练，以充分利用指令微调 LLM 的网页环境归纳偏差。

尽管 WebGUM 在 Mind2Web 上表现出了良好的迁移能力，但我们仍需在未来的工作中扩展多模态基础模型，以实现真实世界网页导航的实际部署（Gur 等, 2023）。

当前工作局限性：

数据规模不足：
- 我们在 MiniWoB++ 上收集并发布了 347K 个多模态专家示范数据，尽管该数据规模已是此前的 38 倍，但仍远未达到支持通用模型所需的互联网规模数据。
- 未来工作应结合迭代数据收集和自动化部署（Ghosh 等, 2021；Matsushima 等, 2021；Li 等, 2022a），以推动更大规模的行为数据采集。
架构适应性：
- 由于我们的框架仅假设以原始 HTML 和截图作为输入，并以文本形式预测可解析的操作，因此可适用于更先进的 LLM或开放场景。
泛化能力：
- 虽然 WebGUM 可以在分布外（OOD）组合任务和扰动任务中展现鲁棒性，但实现真正的人类级泛化，以适应多样化的真实网站和复杂指令，仍是尚待解决的难题。

7 结论

我们提出了 WebGUM（Web navigation via Grounded Understanding Models），这是一种基于指令微调的视觉-语言基础模型，专为网页导航任务而设计。

主要成就：

在 MiniWoB++ 上，WebGUM 将先前离线训练 SOTA 的成功率从 48.4% 提升至 94.2%，实现了显著改进。
详细的消融实验表明，时序和局部视觉令牌能够捕获页面的动态转换和视觉上下文，
指令微调的语言模型显著提升了网页导航性能，主要体现在：
- 更强的 HTML 理解能力，
- 更优秀的多步推理能力。

多步推理能力使 WebGUM 在分布外任务中具有更强的泛化能力，并在 WebShop 上超越了 PaLM-540B。

WebGUM 还在 Mind2Web 的真实世界行动预测任务中展现了强大的正向迁移能力。

此外，我们将现有的 MiniWoB++ 数据集扩展至 347K 多模态专家示范数据，约为原始规模的 38 倍。

未来展望：

我们相信，WebGUM 是迈向更强大、可扩展的自主网页导航模型的重要一步。

你可能感兴趣的:(论文阅读)

[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
【论文阅读】【IEEE TCYB 2023】Edge-Guided Recurrent Positioning Network forSalient Object Detection in Opt
引言任务：光学遥感图像中显著目标检测论文地址：Edge-GuidedRecurrentPositioningNetworkforSalientObjectDetectioninOpticalRemoteSensingImages|IEEEJournals&Magazine|IEEEXplore代码地址：前置知识一、摘要目前由于光学rsi中目标类型多样、目标尺度多样、目标方向众多以及背景杂乱，现有S
大模型服务的推理优化探索半吊子全栈工匠
【引】有的事情别人不问时我们明白，一旦要我们解释它我们就不明白了，而这正是我们必须留心思索的东西。于是，开启了一次又一次的论文阅读之旅。开发并部署大模型应用肯定要考虑它们的服务成本。然而，钱并不是唯一的考虑因素，如果不能解决模型性能方面的问题，即使有很大的预算，大模型服务仍会受到影响。本文尝试讨论将LLM推理服务更改为高吞吐量引擎的挑战与应对方法。1.大模型服务面临的挑战大模型的能力令人惊叹，但其
ER综述论文阅读-Emotion recognition in EEG signals using deep learning methods: A review 今天早睡了情绪识别Emotion Recognition 论文阅读深度学习人工智能
EmotionrecognitioninEEGsignalsusingdeeplearningmethods:AreviewQ1期刊，2023论文链接：https://d1wqtxts1xzle7.cloudfront.net/105887899/emotionreview-libre.pdf?1695460941=&response-content-disposition=inline%3B+f
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
【论文阅读】Decoupled Knowledge Distillation Bosenya12 论文阅读
摘要：最先进的蒸馏方法主要基于从中间层蒸馏出深层特征，而logit蒸馏的重要性则被大大忽视了。为了提供研究logit蒸馏的新观点，我们将经典的KD损失重新表述为两部分，即目标类知识蒸馏（TCKD）和非目标类知识蒸馏（NCKD）。我们实证调查并证明了两部分的效果：TCKD传递了有关训练样本“困难”的知识，而NCKD是logit蒸馏起作用的突出原因。更重要的是，我们揭示了经典的KD损失是一个耦合公式，
【论文阅读】Transfer Learning for Automatic Modulation Recognition Using a Few Modulated Signal Samples
摘要：这封信提出了一种用于自动调制识别（AMR）的迁移学习模型，该模型仅具有少量调制信号样本。传输模型以音频信号UrbanSound8K作为源域进行训练，然后以一些调制信号样本为目标域进行微调。为了提高分类性能，信噪比（SNR）被用作一个功能来促进信号的分类。仿真结果表明，迁移模型在分类精度方面具有显著优势。这篇文章的核心内容是提出了一种基于迁移学习（TransferLearning）的自动调制识
【论文阅读】Meta-SE: A Meta-Learning Framework for Few-Shot Speech Enhancement Bosenya12 论文阅读
这篇文章介绍了一个名为Meta-SE的元学习框架，专门用于少样本（few-shot）语音增强问题。文章的核心目标是解决在实际应用中，由于训练样本有限而导致传统深度神经网络（DNN）模型性能受限的问题。Meta-SE通过元学习的方法，利用先验的元知识快速适应新的任务和噪声类型，即使只有少量训练样本也能表现出色。背景知识与研究动机语音增强技术旨在从带噪语音信号中恢复目标语音，提升语音质量和可懂度。深度
【论文阅读】SASLN：小样本条件下机械故障诊断的信号增强自学习网络
SASLN:SignalsAugmentedSelf-TaughtLearningNetworksforMechanicalFaultDiagnosisUnderSmallSampleCondition本文介绍了一种名为SASLN（SignalsAugmentedSelf-TaughtLearningNetworks）的方法，专门用于在小样本条件下对风力发电机（WT）的发电机轴承故障进行诊断。该方
【论文阅读】SSCL-AMC：一种基于动态增强和集成学习的自监督自动调制分类方法
SSCL-AMC:ASelf-supervisedAutomaticModulationClassificationMethodviaDynamicAugmentationandEnsembleLearning摘要：与传统的手工自动调制分类（AMC）方法相比，深度学习已经显示出有希望的结果，AMC作为信号检测和调制之间的中间步骤发挥着关键作用。然而，获取大规模标记数据仍然具有挑战性，因为数据质量和
[论文阅读] 人工智能 + 软件工程 | 当 LLM 写代码时，它的 “思考过程” 靠谱吗？—— 揭秘 CoT 质量的那些事儿张较瘦_ 前沿技术论文阅读人工智能软件工程
当LLM写代码时，它的“思考过程”靠谱吗？——揭秘CoT质量的那些事儿论文标题：AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenerationarXiv:2507.06980[pdf,html,other]AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenera
[论文阅读] 人工智能 + 软件工程 | 需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破
需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破论文标题：RequirementsElicitationFollow-UpQuestionGenerationarXiv:2507.02858RequirementsElicitationFollow-UpQuestionGenerationYuchenShen,AnmolSinghal,TravisBreauxComments:13page
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25) zhilanguifang 论文 prompt engineering 论文阅读笔记
论文阅读笔记2024-11-24~2024-11-25Auto-CoT:AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理。提供这些步骤用于提示演示叫做思维链提示CoT。Co
【论文阅读】Dynamic Few-Shot Visual Learning without Forgetting Bosenya12 论文阅读
系统概述如下：(a)一个基于卷积神经网络（ConvNet）的识别模型，该模型包含特征提取器和分类器；(b)一个少样本分类权重生成器。这两个组件都是在一组基础类别上训练的，我们为这些类别准备了大量训练数据。在测试阶段，权重生成器会接收少量新类别的训练数据以及基础类别的分类权重向量（分类器框内的绿色矩形），并为新类别生成相应的分类权重向量（分类器框内的蓝色矩形）。这样，卷积神经网络就能同时识别基础类别
【论文阅读】Few-Shot PPG Signal Generation via Guided Diffusion Models Bosenya12 论文阅读
从少量样本数据选择到后处理的整体框架。首先，扩散模型在N样本数据集和指导下的训练。接着，模型生成一个增强的数据集，并进一步优化以提高保真度。最后，这些合成数据与少量样本训练数据集结合，用于基准模型的训练和评估。数据分布从最初的红色变为保真度增强的蓝色，这表明模型与真实数据更加吻合，如简化后的数据分布示意图所示。这篇文章的核心内容是介绍了一种名为BG-Diff（Bi-GuidedDiffusion）
[论文阅读] 人工智能 | 读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法张较瘦_ 前沿技术论文阅读人工智能
读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法论文标题：Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsarXiv:2507.02533Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsMiguelRomero-Arjona,JoséA.Parejo,Jua
【LLM论文阅读】一只齐刘海的猫论文阅读
LLM论文阅读论文重点论文链接RopeRoFormer:EnhancedTransformerwithRotaryPositionEmbeddingRoPE论文阅读YarnUnderstandingYaRN:ExtendingContextWindowofLLMs论文YaRN笔记T5ExploringtheLimitsofTransferLearningwithaUnifiedText-to-Te
Segment Anything in High Quality之SAM-HQ论文阅读 qq_41627642 深度学习论文阅读论文阅读
摘要最近的SegmentAnythingModel（SAM）在扩展分割模型规模方面取得了重大突破，具备强大的零样本能力和灵活的提示机制。尽管SAM在训练时使用了11亿个掩码，其掩码预测质量在许多情况下仍不理想，尤其是对于结构复杂的目标。我们提出了HQ-SAM，使SAM能够精确地分割任意目标，同时保留其原有的可提示设计、高效性和零样本泛化能力。我们的设计充分复用并保留了SAM预训练的模型权重，仅引入
yolov算法详解_yolo 目标检测算法个人总结（yolov1） CHAO JIANG yolov算法详解
yolo目标检测算法个人总结目前yolo目标检测有两个版本，分别为v1和v2。因工作需要用yolo算法检测人物，所以这段时间重点看了这两篇论文，并实现了对应的tensorflow代码。这里记录下在论文阅读过程中的一些细节信息，留给自己，同时也希望各位能指出本人理解错误的地方，谢谢！一：yolov1关于yolov1算法的详解在网上已经非常多了，在这里我大概叙述下算法的流程，以及在开发过程中遇到的一些
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量 ICCL 2022 365JHWZGo 情感对话论文阅读 gpt-3 共情回复上下文学习提示学习大模型
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量ICCL2022前言贡献PromptIn-contextlearningSITSMEMOSITSM新的自动指标实验前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《DoesGPT-3GenerateEmpatheticDialogues
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution论文阅读青铜锁00 #退化论文阅读深度学习论文阅读图像处理
LearningFullyConvolutionalNetworksforIterativeNon-blindDeconvolution1.研究目标与实际问题1.1研究目标1.2实际意义2.创新方法与模型设计2.1核心框架：迭代式梯度域处理2.1.1模型架构2.2关键技术实现2.2.1梯度域去噪网络2.2.2解卷积模块（核心公式实现）2.2.3损失函数设计2.2.4超参数端到端学习2.3与传统方法
KAIST数据集及使用草莓奶忻 SLAM基础 #SLAM数据集 ubuntu
文章目录KAIST复杂城市数据集KAIST数据集转换为rosbag1.将.gz.tar文件解压到其文件夹中2.克隆并构建此存储库3.使用路径和所需主题编辑配置文件4.为每种传感器类型创建一个rosbag文件5.将所有bag合并为一个参考KAIST复杂城市数据集KAIST-Urban-数据集-论文阅读数据集下载：ComplexUrbanDataset复杂城市数据集KAIST数据集转换为rosbag1
[论文阅读] 软件工程 | 需求工程中领域知识研究：系统映射与创新突破张较瘦_ 前沿技术论文阅读软件工程
需求工程中领域知识研究：系统映射与创新突破论文信息DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyarXiv:2506.20754DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyMarinaAraújo,JúliaAraújo,RomeuO
论文阅读：2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译Qwen3技术报告Qwen团队摘要在这项工作中，我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型（LLM），旨在提升性能、效率和多语言能力。Qwen3系列包括密集型
[论文阅读] 软件工程 | 探索软件生态系统中的开发者体验关键因素
探索软件生态系统中的开发者体验关键因素：从研究到实践引文格式@article{Zacarias2025,title={ExploringDeveloperExperienceFactorsinSoftwareEcosystems},author={Zacarias,RodrigoOliveiraandAntunes,L{\'e}oCarvalhoRamosandBarros,M{\'a}rciod
Fast Image Deconvolution using Hyper-Laplacian Priors论文阅读青铜锁00 #退化论文阅读论文阅读图像处理
FastImageDeconvolutionusingHyper-LaplacianPriors1.论文的研究目标与实际意义2.论文的创新方法2.1核心框架：交替最小化（AlternatingMinimization）2.2x子问题：频域FFT加速2.3w子问题：高效求解的核心创新2.3.1问题形式2.3.2查找表法（LUT）2.3.3解析解法（特定α\alphaα）2.3.4通用α\alphaα
[论文阅读] 人工智能 + 软件工程 | AI 与敏捷开发的破局之路：从挫败到成功的工作坊纪实张较瘦_ 前沿技术论文阅读人工智能软件工程
AI与敏捷开发的破局之路：从挫败到成功的工作坊纪实论文信息arXiv:2506.20159AIandAgileSoftwareDevelopment:FromFrustrationtoSuccess–XP2025WorkshopSummaryTomasHerda,VictoriaPichler,ZheyingZhang,PekkaAbrahamsson,GeirK.HanssenSubjects:
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR