feifeikon

大模型GUI系列论文阅读 DAY3：《GPT-4V(ision) is a Generalist Web Agent, if Grounded》

摘要

近年来，大型多模态模型（LMMs）的发展，特别是 GPT-4V(ision) 和 Gemini，迅速扩展了多模态模型的能力边界，不再局限于传统任务如图像描述和视觉问答。在本研究中，我们探讨了 LMMs（如 GPT-4V）作为通用网页代理的潜力，这类代理能够根据自然语言指令完成任意网站上的任务。我们提出了 SEEACT，这是一种通用网页代理，利用 LMMs 的视觉理解能力，实现网页上的操作。

我们在最新的 MIND2WEB 基准测试上进行了评估。除了对缓存网站的标准离线评估外，我们还开发了一种工具，支持在线评估，即在实时网站上运行网页代理。我们的研究表明，GPT-4V 展现了作为网页代理的巨大潜力——在人工将其文本计划转化为网站上的实际操作的情况下，它能够成功完成实时网站上的 51.1% 任务。这一表现显著优于文本仅限的 LLMs（如 GPT-4）或针对网页代理特别微调的小型模型（如 FLAN-T5 和 BLIP-2）。

然而，基础对接（grounding）仍然是一个主要挑战。现有的 LMM 对接策略（如 set-of-mark 提示）对网页代理并不有效。本研究中开发的最佳对接策略结合了 HTML 结构和视觉信息。然而，与理想的对接（oracle grounding）相比仍存在显著差距，这表明仍有很大的改进空间。所有代码、数据和评估工具均可在以下网址获取：
https://github.com/OSU-NLP-Group/SeeAct。

1. 引言
大型多模态模型（LMMs；Li 等, 2023；Alayrac 等, 2022；Liu 等, 2023b），尤其是最近的 GPT-4V(ision)（OpenAI, 2023）和 Gemini（Anil 等, 2023），在标准的视觉-语言理解与推理基准测试中展现出了卓越的能力（Kazemzadeh 等, 2014；Goyal 等, 2016；Hendrycks 等, 2020；Saikh 等, 2022；Lu 等, 2022；Zhong 等, 2023；Yue 等, 2023）。虽然网页内容一直是 LMMs 的主要训练数据来源，但网页本身这一部分却在很大程度上被忽视——每个网站都经过视觉设计，以便于人类用户轻松浏览。

这为 LMMs 提出了新的挑战，同时也带来了新的机遇。一方面，网站的渲染截图可能包含数千个元素及其复杂的关联，远比大多数现有基准测试中的图像更复杂，而后者通常集中在对象或场景层面。另一方面，如果 LMMs 能够准确理解网站内容，将为网页上的众多应用打开新的大门。

在本研究中，我们旨在探讨 LMMs 作为通用网页代理的潜力（Deng 等, 2023）。根据 MIND2WEB（Deng 等, 2023）的定义，通用网页代理应能够遵循自然语言指令，在任意真实世界的网站上完成任务（例如图 1 所示）。

这些任务可能非常多样化和复杂，一个任务可能需要在多个动态渲染的网页上执行 10 多个操作。现有研究（Deng 等, 2023；Liu 等, 2023d）主要使用大型语言模型（LLMs），如 GPT-4（OpenAI, 2023），处理原始的 HTML 输入。然而，与渲染后的网站视觉内容相比，HTML 代码更加冗杂，并且信息密度较低。例如，图 1 中的网页截图包含 423 个 HTML 元素，如果使用 GPT-2 标记器处理，将需要 186,490 个文本标记，而 GPT-4V 的视觉标记器仅需 1,445 个视觉标记。此外，HTML 仅能提供不完整的信息，并可能遗漏嵌入图像等关键语义信息。

为此，我们提出了 SEEACT，一种利用 LMMs 能力进行网页视觉理解和操作的通用网页代理。我们将重点研究当前最先进的 LMM，即 GPT-4V，并与较小的 LMMs（如 BLIP-2（Li 等, 2023）和 LLaVA-1.5（Liu 等, 2023a;c））进行比较。我们发现，GPT-4V 在视觉理解渲染后的网页方面表现出很强的能力，能够为各种网站和任务生成正确的文本计划。然而，对接（grounding） 仍然是一个重大挑战，即将文本计划准确转换为网站上的具体操作。这包括选择正确的 HTML 元素进行交互，以及选择正确的操作（例如，点击、输入或选择）。

我们提出了多种 grounding 方法，包括在网页图像上叠加边界框和索引标签，类似于在对象或场景为中心的图像上表现良好的 set-of-mark 提示（Yang 等, 2023a）。然而，我们发现，在具有丰富语义和空间关系的复杂网页截图上，GPT-4V 容易产生严重的幻觉（hallucination）。最有效的 grounding 策略是利用 HTML 元素与其视觉呈现之间的已知对应关系，这一点使得网页与自然图像不同。

我们在 MIND2WEB 数据集（Deng 等, 2023）上评估了 SEEACT，并将其与文本仅 LLMs（如 GPT-4（OpenAI, 2023））以及较小的模型（FLAN-T5（Chung 等, 2022）、BLIP-2（Li 等, 2023）、LLaVA-1.5（Liu 等, 2023a;c）和 CogAgent（Hong 等, 2023））进行比较。除了标准的离线评估（使用缓存网站），我们还开发了一种新的工具，以便在实时网站上运行网页代理，从而进行在线评估。

我们的主要研究发现如下：

SEEACT 结合 GPT-4V 作为通用网页代理具有强大的潜力（如果提供理想的 grounding）。 在在线评估中，它能够成功完成 51.1% 的网站任务，远超现有方法，如 GPT-4（13.3%）或 FLAN-T5（8.9%）。这表明 GPT-4V 等 LMMs 在网页代理方面具有巨大潜力。
然而，grounding 仍然是主要挑战。 目前最优的 grounding 策略与理想对接（oracle grounding）仍存在 20-30% 的差距。在各种 grounding 策略中，最佳方案结合了 HTML 文本和视觉内容，较图像注释策略（Yang 等, 2023a）表现提升高达 10%。
在上下文学习（in-context learning）方面，LLMs 和 LMMs 对于未见过的网站具有更好的泛化能力， 而针对训练时见过的网站，监督微调（supervised fine-tuning）仍然具有优势。
在线与离线评估之间存在显著差异， 因为同一任务可能存在多个可行的解决方案。在线评估更能反映模型的实际性能。

2. SeeAct

在本节中，我们首先介绍网页代理问题的公式化描述，然后介绍基于大型多模态模型（LMMs）的通用网页代理 SEEACT。具体而言，针对一个网页任务（例如，在汽车租赁网站上“租用最便宜的卡车”），我们研究 LMMs 作为通用网页代理所需的两个核心能力：

动作生成（Action Generation）： 在每一步生成动作描述（例如，“将光标移动到‘Find Your Truck’按钮并点击”），以完成任务。
元素对接（Element Grounding）： 在当前网页步骤中识别正确的 HTML 元素（例如，“[button] Find Your Truck”）。

2.1 问题公式化

给定一个网站 SSS（如汽车租赁网站）和一个任务 TTT（如“租用最便宜的卡车”），网页代理应生成一系列可执行的动作序列 A=[a1,a2,…,an]A = [a_1, a_2, \dots, a_n]A=[a1,a2,…,an] 来完成任务。具体来说，在时间步 ttt，代理需要基于当前环境观测 sts_tst、之前的动作 {a1,a2,…,at−1}\{a_1, a_2, \dots, a_{t-1}\}{a1,a2,…,at−1} 以及任务 TTT，生成动作 ata_tat：

at=π(st,T,{a1,a2,…,at−1})a_t = \pi(s_t, T, \{a_1, a_2, \dots, a_{t-1}\})at=π(st,T,{a1,a2,…,at−1})

环境观测 sts_tst 由 HTML 文档 hth_tht 和网页截图 iti_tit 组成。

纯文本 LLM 只能基于 HTML 文档进行操作。
多模态 LMM 既可以基于 HTML 文档，也可以基于网页截图进行操作。

在每次操作后，网站状态将被更新：

st+1=S(at)={ht+1,it+1}s_{t+1} = S(a_t) = \{h_{t+1}, i_{t+1}\}st+1=S(at)={ht+1,it+1}

为了简化，后续的公式中将省略时间步 ttt 的表示。

一个动作 aaa 对应于由网站环境提供的浏览器事件。因此，我们将动作定义为网页事件的三元组 (e,o,v)(e, o, v)(e,o,v)：

e∈Ee \in Ee∈E：目标网页元素，例如图 2 中的 “Find Your Truck” 按钮。
o∈Oo \in Oo∈O：执行的操作类型，例如点击、输入等。
vvv：执行某些操作所需的额外信息（如输入日期 "12/10/2023"）。

然而，基于 LLM 或 LMM 的代理通常无法直接生成上述三元组 (e,o,v)(e, o, v)(e,o,v)，而是生成描述这些变量的文本动作 a~\tilde{a}a~，包括 (e~,o~,v~)(\tilde{e}, \tilde{o}, \tilde{v})(e~,o~,v~)。
这一过程称为 动作生成（Action Generation）。要与网页环境进行交互，还需将 a~\tilde{a}a~ 转换为可执行的动作 aaa，这一过程称为 动作对接（Action Grounding）。

2.2 动作生成（Action Generation）

我们明确指示 GPT-4V 模拟人类浏览网页的方式，分析任务、网页以及先前的操作。模型需要基于其分析和推理能力，生成动作描述 a~\tilde{a}a~。在该过程中，我们使用网页截图 iii 作为视觉上下文，而不利用 HTML 文档 hhh 进行动作生成。

2.3 动作对接（Action Grounding）

尽管 GPT-4V 能够用自然语言识别和描述完成给定任务所需的下一步操作，但将动作描述 a~\tilde{a}a~ 转化为可执行的动作 aaa 仍然具有挑战性。

通过字符串解析，可以合理地从动作描述中提取操作类型 ooo 和值 vvv。
关键挑战 在于从生成的 e~\tilde{e}e~ 中识别目标元素 eee，即 元素对接（Element Grounding）。

为了解决此挑战，我们探索了三种不同的信息类型进行 grounding，如图 2 所示：

基于元素属性的对接（Grounding via Element Attributes）：
- 通过提示模型生成尽可能详细的目标元素属性，以便更精确地匹配 HTML 元素。
- 例如，模型不仅要描述元素 eee，还需指定其类型和文本内容，如“Find Your Truck”按钮，并标注为“BUTTON”类型。
- 之后，使用启发式搜索在 DOM 元素中定位匹配项，如果找到唯一匹配项，则自动选择；如果有多个匹配项，则提示模型进行最终选择。
基于文本选择的对接（Grounding via Textual Choices）：
- 该方法通过提供网页元素的文本表示作为候选选项来帮助 grounding。
- 例如，MindAct（Deng 等, 2023）使用一个排名模型，筛选出前 kkk 个候选元素 (e1,e2,…,ek)(e_1, e_2, \dots, e_k)(e1,e2,…,ek)，每个候选项被表示为多项选择题的选项，如图 2 所示。
- 在生成动作描述 a~\tilde{a}a~ 后，模型被进一步要求从候选选项中选择目标元素，并提供“无匹配”选项。
基于图像标注的对接（Grounding via Image Annotation）：
- 由于文本表示有时不足以区分相似或相同的网页元素（如附录 G 所示），因此我们提出使用边界框和索引标签覆盖每个候选元素。
- 该方法为候选元素 eee 创建一个边界框，并在边界框旁标注标签，以避免标注重叠。
- 模型需生成与目标元素对应的标签，从而准确识别正确的网页元素。

理想动作对接（Oracle Action Grounding）

理想情况下，动作描述 a~\tilde{a}a~ 应包含所有必要的详细信息，以便精确识别动作三元组 (e,o,v)(e, o, v)(e,o,v)。为了评估动作生成的性能，我们采用一种理想对接方法（oracle grounding），即在动作描述中明确提及的变量均可被正确识别。

在实际评估中，我们通过人工标注方式来近似此 oracle 方法，人工标注人员会帮助确认模型所生成的目标动作。

3. 实验

3.1 数据集

我们在 MIND2WEB（Deng 等, 2023）数据集上评估了我们的方法。该数据集包含超过 2000 个具有标注操作的复杂网页任务，涉及 137 个网站，覆盖 31 个低级域（low-level domains），并被归类为 12 个高级域（high-level domains）。数据集支持三种主要操作：点击（Click）、输入（Type）和选择（Select），同时将“悬停（Hover）”和“回车（Press Enter）”操作整合到点击操作中，以避免歧义。

测试集的目标是衡量网页代理在不同任务、网站和领域中的泛化能力，具体包括以下三种设置：

跨任务（Cross-Task）： 评估代理在训练数据中未见过的任务，但仍在已知的域和网站中执行。
跨网站（Cross-Website）： 评估代理在每个顶级域中新网站上的任务，测试 10 个新网站。
跨领域（Cross-Domain）： 评估代理在训练数据中未包含的两个顶级域上的任务表现。

我们将数据集中每个 HTML 文档与其对应的网页截图图像进行对齐，这些数据经过人工验证，以确保元素的可见性和正确的渲染，以进行动作预测。经过清理后的数据版本称为 Multimodal Mind2Web，相关统计数据见表 1。

3.2 方法

SEEACT 方法：
在“基于图像标注”和“基于文本选择”对接策略中，我们首先使用 MindAct（Deng 等, 2023）提出的 DeBERTa-base 交叉编码器，对网页元素进行排名，选出前 50 个最相关元素，以便与文本仅基准进行公平比较。然后，我们将这些元素分成 17 个选项的组，供模型推理。在“基于元素属性”对接策略中，不提供候选元素，直接依靠模型进行推断。

我们在 GPT-4V API 上测试了所有三种 grounding 方法，并将表现最佳的 grounding 方法应用于 Gemini Pro Vision（Anil 等, 2023）和 LLaVA-1.5（Liu 等, 2023a;c）。

MindAct 方法：
为了与 SEEACT 进行比较，我们还实现了基于文本 LLM 和 BLIP-2（Li 等, 2023）的方法，遵循 MindAct 提出的两阶段策略（Deng 等, 2023）。具体来说，首先使用排名器选出前 50 个元素，然后将动作生成问题表述为多项选择题，其中候选元素作为选项，如果目标元素不存在，则包含“无”选项。在推理过程中，元素被分成 5 个一组进行迭代优化，直到做出最终选择或所有选项被丢弃。

我们评估了以下方法：

监督微调（SFT）： 采用 FLAN-T5（Chung 等, 2022）和 BLIP-2-T5。
上下文学习（ICL）： 采用 GPT-3.5 和 GPT-4。

像素级对接（Pixel-Level Grounding）：
LMMs 可以通过在包含对象坐标的扩展数据集上训练，来生成目标元素在图像中的坐标，特别是在开源模型（Hong 等, 2023；Cheng 等, 2024；You 等, 2023）中表现较好。我们选择 CogAgent（Hong 等, 2023）作为该实验的代表模型，并采用 ICL 方法。

各个方法的详细信息见附录 A。

3.3 离线评估

我们采用 MIND2WEB 数据集中的评估指标，包括：

元素准确率（Ele. Acc）： 比较预测的元素与真实元素的匹配度。
操作 F1 分数（Op. F1）： 计算预测的操作（包括动作和输入值）的 token 级 F1 分数。
步骤成功率（Step SR）： 衡量每一步动作的成功率，只有当所选元素和操作均正确时，该步骤才被视为成功。

我们对以上指标进行任务级宏平均。此外，还测量任务成功率（Success Rate, SR），该指标要求任务的所有步骤均正确才算成功。由于离线评估不允许模型进行探索和错误修正，因此我们主要关注前三个指标。然而，我们还对实时网站进行在线评估，以更好地衡量整体任务成功率，详细内容见下文。

3.4 在线评估

我们开发了一个新的在线评估工具，使用 Playwright 来评估网页代理在实时网站上的表现（与离线评估中的缓存网站不同）。

我们的工具可以高效地将浏览器中的多模态输入传输到代理，并将预测的动作三元组 (e,o,v)(e, o, v)(e,o,v) 转换为浏览器事件进行执行。

为了遵守道德标准，实验仅限于非登录任务，以确保符合用户协议。此外，在在线评估过程中，我们密切监控代理行为，以防止其执行任何可能产生负面影响的操作，例如下单或修改用户个人信息。

4. 结果与分析

4.1. 离线评估结果

GPT-4V 结合理想对接方法可以成为通用网页代理。
在提供有效的动作对接（grounding）方法的情况下，GPT-4V 具有成为通用网页代理的潜力。具体而言，如第 2.3 节所述，我们通过人工标注为 GPT-4V 提供了理想的动作对接方法（SEEACTOracle），在三个测试集上的步骤成功率分别达到了 61.9%、65.0% 和 62.1%。如表 2 所示，该方法在所有测试集上显著优于其他模型，尤其是在**跨任务（Cross-Task）设置下，其步骤成功率比第二好的方法高出 8.4%。在跨网站（Cross-Website）和跨领域（Cross-Domain）**设置下，SEEACTOracle 分别领先 23.9% 和 23.2%，表明其泛化能力优于监督微调方法。这一发现在在线评估（表 4）中得到了进一步验证。

元素对接方法的比较。
然而，理想对接方法与我们提出的三种对接方法之间仍存在显著差距（见表 3），这表明对接（尤其是元素对接）仍然是主要的瓶颈。

基于文本选择的对接（SEEACTChoice） 在所有测试场景和指标上表现最佳，接近监督微调，并显著优于仅使用文本的 LLMs。
基于图像标注的对接（SEEACTAnnotation） 提供了一种直观的方法，并在以对象或场景为中心的图像任务中表现良好（Yang 等, 2023a）。然而，在处理具有丰富语义和空间关系的网页截图时，GPT-4V 经常出现严重的幻觉（hallucination），即生成的元素描述虽然正确，但无法准确映射到图像中的边界框和索引标签，导致较低的元素准确率。
基于元素属性的对接（SEEACTAttribute） 由于依赖启发式的元素定位策略（基于文本和局部特征），在不包含文本的网页元素上表现较差。

LMMs 与 LLMs 比较。
使用 GPT-4V 的 SEEACTChoice 方法在三个测试集上，在所有指标上都显著优于仅使用文本的 GPT-4。

在步骤成功率上，SEEACTChoice 分别比 GPT-4 高出 6.8%、5.7% 和 12.3%。
令人惊讶的是，微调的 BLIP-2-T5 在表现上并未明显优于 FLAN-T5，尽管其具有额外的视觉输入。这可能是由于以下原因：
1. 作为图像编码器的 CLIP 模型在理解网页截图细节方面能力有限。
2. BLIP-2-T5 采用的是未专门针对网页截图优化的现成 CLIP 模型。
3. 训练集中的某些示例可能存在截图渲染失败或不准确的标注问题。

监督微调（SFT）与上下文学习（ICL）。
我们比较了 SFT 和 ICL 方法，以探索在不同场景下开发网页代理的最优策略。

ICL（使用 SEEACT） 在所有测试场景中表现稳定，尤其适用于缺乏标注数据或需要对新领域和网站进行泛化的场景。
随着对接方法的改进，ICL 方法可能进一步提高性能。
相比之下，SFT 方法在已知网站上的任务表现更好。由于网页代理的标注成本较高，ICL 提供了更具吸引力的解决方案。然而，如果目标仅限于某个特定网站的高性能代理，SFT 仍然是一个有竞争力的选择。

4.2. 在线评估结果

在在线评估中，我们让网页代理与人工标注员配对，人工标注员负责监控代理的操作，确保其不会更改真实世界的状态，并判断任务是否成功完成。为公平比较，我们将在线评估与离线评估进行对比，并重新编写时间敏感的任务（如更新航班预订日期）以确保测试时的有效性。最终，我们在来自三个测试集的 90 个任务子集上进行了在线评估。

表 4 显示，在在线评估中，整个任务成功率远高于离线评估（Offline0 设置）。这表明离线评估可能低估了模型的整体任务成功率，因为同一任务可能存在多个可行的执行计划，而离线评估仅评估其中之一。

在所有测试设置中，SEEACTChoice（结合 GPT-4V）比 GPT-4 和 FLAN-T5-XL 的整体任务成功率高出 20% 以上。使用理想对接方法（SEEACTOracle）可进一步将任务成功率提高到 51.1%。虽然 GPT-4 在离线评估中表现逊于 FLAN-T5-XL（表 2），但在在线评估中，它的整体任务成功率仍然高出 FLAN-T5-XL 4.4%。

4.3. 分析

按任务难度分析在线成功率。
我们根据人工标注员在标注过程中执行的动作数量来估算任务难度。图 3 显示，整体任务成功率与任务所需操作数量呈负相关，即任务越复杂，成功率越低。SEEACTOracle 在所有难度级别上均优于其他方法，尤其在长任务上，SEEACTOracle 与 SEEACTChoice 之间的差距扩大。这表明对接错误会在后续步骤中累积，并进一步凸显 GPT-4V 在对接方面的挑战。

基于图像标注的对接错误分析。
我们随机抽取 100 个预测正确但对接失败的示例，发现主要错误类型包括：

生成虚假的边界框和标签；
未能正确链接边界框与相应的标签。

54% 的错误是由于 GPT-4V 产生视觉幻觉，错误地假设目标元素存在，而实际上并无相应边界框；46% 的错误来自模型在识别图像中相对位置的局限性。

4.4. 案例研究

GPT-4V 在多个方面表现出色，包括：

世界知识（World Knowledge）： 在需要背景知识的任务中，GPT-4V 比微调的小型模型表现更优，例如能够正确识别洛斯卡波斯机场的 IATA 代码 SJD，而小模型通常在知识密集型任务中表现较差。
网站世界模型（World Model for Websites）： GPT-4V 具备预测网站状态变化的能力，例如预测点击按钮后的页面跳转，并基于这种认知进行未来行动的推测性规划。
错误修正能力（Error Correction Awareness）： GPT-4V 能识别并纠正错误，例如检测到手机号格式错误并生成相应的修复动作说明。

5. 相关工作

网页代理（WebAgent）

许多研究致力于改进依赖 HTML 文档的网页代理（Deng 等, 2023；Gur 等, 2023；Kim 等, 2023；Sridhar 等, 2023）。然而，原始 HTML 文档通常庞大，直接将其输入到大型语言模型（LLMs）中通常是不切实际的，或者成本过高。

MindAct（Deng 等, 2023）采用小型语言模型对 HTML 元素进行排名，并选择最相关的元素作为上下文输入。WebAgent（Gur 等, 2023）通过对 HTML 文档进行摘要，并将指令分解为多个子指令，提出了一种增强的规划策略。

另一个研究方向是为网页代理引入视觉信息（Shaw 等, 2023；Furuta 等, 2023；Hong 等, 2023）：

Pix2Act（Shaw 等, 2023）利用 Pix2Struct（Lee 等, 2022）将网页截图解析为简化的 HTML，以完成基于图形用户界面的任务。
WebGUM（Furuta 等, 2023）和 CogAgent（Hong 等, 2023）通过预训练大量网页截图-HTML 数据，提高模型在网页导航任务（如 MIND2WEB）中的决策能力。

尽管上述工作取得了进展，但现有模型在泛化到各种网页环境方面仍面临挑战。因此，SEEACT 探索了最新发布的更强大的多模态模型（LMMs），如 GPT-4V 和 Gemini，并通过全面的在线和离线评估，展示它们作为通用网页代理的潜力。在一项并行研究中（Yan 等, 2023），GPT-4V 在移动 UI 理解方面表现出色，而移动网站的复杂性通常低于桌面端网页。

大型多模态模型（Large Multimodal Models, LMMs）

GPT-4V（OpenAI, 2023）和 Gemini（Anil 等, 2023）代表了 LMMs 的重要进展。多个研究（Akter 等, 2023；OpenAI, 2023；Yang 等, 2023c；Zhang 等, 2023）强调了这些模型在视觉和语言推理能力方面的先进性和多功能性。它们在一系列基准测试（Kazemzadeh 等, 2014；Goyal 等, 2016；Zhong 等, 2023）上的出色表现也进一步证明了其在视觉-语言理解和推理方面的能力。

尽管开源模型与 GPT-4V 之间仍存在性能差距，但它们在可控性和易于针对特定应用进行微调方面具有优势。例如，CogAgent（Hong 等, 2023）在 HTML 和网页截图数据集上进行了微调，以增强网页理解能力，并通过图像编码器改进高分辨率图像的细节处理。Ferret（You 等, 2023）针对视觉引用和对接进行了微调，以提高模型在图像区域识别方面的能力。

视觉对接（Visual Grounding）

尽管 LMMs 在视觉-语言理解方面取得了显著进展，但在细粒度视觉对接方面仍面临挑战。

研究人员提出了多种**视觉提示（visual prompting）**方法，以增强 GPT-4V 处理图像细节的对接能力（Shtedritski 等, 2023；Yang 等, 2023b）。
SoM（Set-of-Mark）（Yang 等, 2023a）方法通过将图像分割成具有语义意义的区域，并叠加数字、字母、掩码或边界框等视觉标记来提升对接效果。
Kosmos-2（Peng 等, 2023）通过文本位置标记来表示边界框的位置。
BuboGPT（Zhao 等, 2023）提取图像中的实体并找到相应的掩码。
Shikra（Chen 等, 2023）通过在输入和输出中应用空间坐标作为文本标记，处理图像的细节引用和对接。
Ferret（You 等, 2023）结合离散坐标和连续特征，并使用空间感知的视觉采样器来处理不同形状的空间特征。

6. 结论

在本研究中，我们开发了 SEEACT，这是一种通用网页代理，利用 GPT-4V 等大型多模态模型的能力，集成视觉理解和网页操作。我们的研究表明，LMMs 在网页代理任务中具有巨大潜力，在提供理想对接方法的情况下，成功率可达 50%。GPT-4V 还展现出诸如错误修正和推测性规划等强大功能。

然而，细粒度视觉对接仍然是一个主要挑战。本文中探索的最有效对接策略与理想对接仍存在 20-25% 的性能差距。未来研究应充分利用网页的独特特性，例如 HTML 和视觉元素之间的已知对应关系，以改进对接过程并减少 LMMs 的幻觉。此外，在线和离线评估之间存在显著差异，强调了在线评估对于准确评估模型能力的重要性。离线评估往往低估了模型的实际能力，因为同一任务可能存在多种可行的执行方案，而离线评估仅关注其中之一。

7. 影响声明

通用网页代理有潜力自动化日常网页任务、提升用户体验，并促进网页的可访问性。然而，它们在实际部署过程中也带来了一些安全问题，这些问题需要引起高度关注，例如：

访问用户的个人资料可能引发隐私问题。
执行诸如金融交易或提交申请表单等敏感操作，可能带来风险。

在在线评估过程中，我们注意到这些网页代理可能会生成有害操作，因此在执行之前，人工标注员对所有操作进行了安全验证。未来的研究需进一步评估和缓解这些风险，以确保网页代理不会执行有害操作。

该研究的代码将仅供研究用途，并遵循 OPEN-RAIL 许可证，旨在通过语言技术提高网页的可访问性。我们坚决反对任何滥用该数据或技术的行为。

你可能感兴趣的:(论文阅读)

[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
【论文阅读】【IEEE TCYB 2023】Edge-Guided Recurrent Positioning Network forSalient Object Detection in Opt
引言任务：光学遥感图像中显著目标检测论文地址：Edge-GuidedRecurrentPositioningNetworkforSalientObjectDetectioninOpticalRemoteSensingImages|IEEEJournals&Magazine|IEEEXplore代码地址：前置知识一、摘要目前由于光学rsi中目标类型多样、目标尺度多样、目标方向众多以及背景杂乱，现有S
大模型服务的推理优化探索半吊子全栈工匠
【引】有的事情别人不问时我们明白，一旦要我们解释它我们就不明白了，而这正是我们必须留心思索的东西。于是，开启了一次又一次的论文阅读之旅。开发并部署大模型应用肯定要考虑它们的服务成本。然而，钱并不是唯一的考虑因素，如果不能解决模型性能方面的问题，即使有很大的预算，大模型服务仍会受到影响。本文尝试讨论将LLM推理服务更改为高吞吐量引擎的挑战与应对方法。1.大模型服务面临的挑战大模型的能力令人惊叹，但其
ER综述论文阅读-Emotion recognition in EEG signals using deep learning methods: A review 今天早睡了情绪识别Emotion Recognition 论文阅读深度学习人工智能
EmotionrecognitioninEEGsignalsusingdeeplearningmethods:AreviewQ1期刊，2023论文链接：https://d1wqtxts1xzle7.cloudfront.net/105887899/emotionreview-libre.pdf?1695460941=&response-content-disposition=inline%3B+f
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
【论文阅读】Decoupled Knowledge Distillation Bosenya12 论文阅读
摘要：最先进的蒸馏方法主要基于从中间层蒸馏出深层特征，而logit蒸馏的重要性则被大大忽视了。为了提供研究logit蒸馏的新观点，我们将经典的KD损失重新表述为两部分，即目标类知识蒸馏（TCKD）和非目标类知识蒸馏（NCKD）。我们实证调查并证明了两部分的效果：TCKD传递了有关训练样本“困难”的知识，而NCKD是logit蒸馏起作用的突出原因。更重要的是，我们揭示了经典的KD损失是一个耦合公式，
【论文阅读】Transfer Learning for Automatic Modulation Recognition Using a Few Modulated Signal Samples
摘要：这封信提出了一种用于自动调制识别（AMR）的迁移学习模型，该模型仅具有少量调制信号样本。传输模型以音频信号UrbanSound8K作为源域进行训练，然后以一些调制信号样本为目标域进行微调。为了提高分类性能，信噪比（SNR）被用作一个功能来促进信号的分类。仿真结果表明，迁移模型在分类精度方面具有显著优势。这篇文章的核心内容是提出了一种基于迁移学习（TransferLearning）的自动调制识
【论文阅读】Meta-SE: A Meta-Learning Framework for Few-Shot Speech Enhancement Bosenya12 论文阅读
这篇文章介绍了一个名为Meta-SE的元学习框架，专门用于少样本（few-shot）语音增强问题。文章的核心目标是解决在实际应用中，由于训练样本有限而导致传统深度神经网络（DNN）模型性能受限的问题。Meta-SE通过元学习的方法，利用先验的元知识快速适应新的任务和噪声类型，即使只有少量训练样本也能表现出色。背景知识与研究动机语音增强技术旨在从带噪语音信号中恢复目标语音，提升语音质量和可懂度。深度
【论文阅读】SASLN：小样本条件下机械故障诊断的信号增强自学习网络
SASLN:SignalsAugmentedSelf-TaughtLearningNetworksforMechanicalFaultDiagnosisUnderSmallSampleCondition本文介绍了一种名为SASLN（SignalsAugmentedSelf-TaughtLearningNetworks）的方法，专门用于在小样本条件下对风力发电机（WT）的发电机轴承故障进行诊断。该方
【论文阅读】SSCL-AMC：一种基于动态增强和集成学习的自监督自动调制分类方法
SSCL-AMC:ASelf-supervisedAutomaticModulationClassificationMethodviaDynamicAugmentationandEnsembleLearning摘要：与传统的手工自动调制分类（AMC）方法相比，深度学习已经显示出有希望的结果，AMC作为信号检测和调制之间的中间步骤发挥着关键作用。然而，获取大规模标记数据仍然具有挑战性，因为数据质量和
[论文阅读] 人工智能 + 软件工程 | 当 LLM 写代码时，它的 “思考过程” 靠谱吗？—— 揭秘 CoT 质量的那些事儿张较瘦_ 前沿技术论文阅读人工智能软件工程
当LLM写代码时，它的“思考过程”靠谱吗？——揭秘CoT质量的那些事儿论文标题：AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenerationarXiv:2507.06980[pdf,html,other]AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenera
[论文阅读] 人工智能 + 软件工程 | 需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破
需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破论文标题：RequirementsElicitationFollow-UpQuestionGenerationarXiv:2507.02858RequirementsElicitationFollow-UpQuestionGenerationYuchenShen,AnmolSinghal,TravisBreauxComments:13page
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25) zhilanguifang 论文 prompt engineering 论文阅读笔记
论文阅读笔记2024-11-24~2024-11-25Auto-CoT:AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理。提供这些步骤用于提示演示叫做思维链提示CoT。Co
【论文阅读】Dynamic Few-Shot Visual Learning without Forgetting Bosenya12 论文阅读
系统概述如下：(a)一个基于卷积神经网络（ConvNet）的识别模型，该模型包含特征提取器和分类器；(b)一个少样本分类权重生成器。这两个组件都是在一组基础类别上训练的，我们为这些类别准备了大量训练数据。在测试阶段，权重生成器会接收少量新类别的训练数据以及基础类别的分类权重向量（分类器框内的绿色矩形），并为新类别生成相应的分类权重向量（分类器框内的蓝色矩形）。这样，卷积神经网络就能同时识别基础类别
【论文阅读】Few-Shot PPG Signal Generation via Guided Diffusion Models Bosenya12 论文阅读
从少量样本数据选择到后处理的整体框架。首先，扩散模型在N样本数据集和指导下的训练。接着，模型生成一个增强的数据集，并进一步优化以提高保真度。最后，这些合成数据与少量样本训练数据集结合，用于基准模型的训练和评估。数据分布从最初的红色变为保真度增强的蓝色，这表明模型与真实数据更加吻合，如简化后的数据分布示意图所示。这篇文章的核心内容是介绍了一种名为BG-Diff（Bi-GuidedDiffusion）
[论文阅读] 人工智能 | 读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法张较瘦_ 前沿技术论文阅读人工智能
读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法论文标题：Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsarXiv:2507.02533Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsMiguelRomero-Arjona,JoséA.Parejo,Jua
【LLM论文阅读】一只齐刘海的猫论文阅读
LLM论文阅读论文重点论文链接RopeRoFormer:EnhancedTransformerwithRotaryPositionEmbeddingRoPE论文阅读YarnUnderstandingYaRN:ExtendingContextWindowofLLMs论文YaRN笔记T5ExploringtheLimitsofTransferLearningwithaUnifiedText-to-Te
Segment Anything in High Quality之SAM-HQ论文阅读 qq_41627642 深度学习论文阅读论文阅读
摘要最近的SegmentAnythingModel（SAM）在扩展分割模型规模方面取得了重大突破，具备强大的零样本能力和灵活的提示机制。尽管SAM在训练时使用了11亿个掩码，其掩码预测质量在许多情况下仍不理想，尤其是对于结构复杂的目标。我们提出了HQ-SAM，使SAM能够精确地分割任意目标，同时保留其原有的可提示设计、高效性和零样本泛化能力。我们的设计充分复用并保留了SAM预训练的模型权重，仅引入
yolov算法详解_yolo 目标检测算法个人总结（yolov1） CHAO JIANG yolov算法详解
yolo目标检测算法个人总结目前yolo目标检测有两个版本，分别为v1和v2。因工作需要用yolo算法检测人物，所以这段时间重点看了这两篇论文，并实现了对应的tensorflow代码。这里记录下在论文阅读过程中的一些细节信息，留给自己，同时也希望各位能指出本人理解错误的地方，谢谢！一：yolov1关于yolov1算法的详解在网上已经非常多了，在这里我大概叙述下算法的流程，以及在开发过程中遇到的一些
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量 ICCL 2022 365JHWZGo 情感对话论文阅读 gpt-3 共情回复上下文学习提示学习大模型
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量ICCL2022前言贡献PromptIn-contextlearningSITSMEMOSITSM新的自动指标实验前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《DoesGPT-3GenerateEmpatheticDialogues
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution论文阅读青铜锁00 #退化论文阅读深度学习论文阅读图像处理
LearningFullyConvolutionalNetworksforIterativeNon-blindDeconvolution1.研究目标与实际问题1.1研究目标1.2实际意义2.创新方法与模型设计2.1核心框架：迭代式梯度域处理2.1.1模型架构2.2关键技术实现2.2.1梯度域去噪网络2.2.2解卷积模块（核心公式实现）2.2.3损失函数设计2.2.4超参数端到端学习2.3与传统方法
KAIST数据集及使用草莓奶忻 SLAM基础 #SLAM数据集 ubuntu
文章目录KAIST复杂城市数据集KAIST数据集转换为rosbag1.将.gz.tar文件解压到其文件夹中2.克隆并构建此存储库3.使用路径和所需主题编辑配置文件4.为每种传感器类型创建一个rosbag文件5.将所有bag合并为一个参考KAIST复杂城市数据集KAIST-Urban-数据集-论文阅读数据集下载：ComplexUrbanDataset复杂城市数据集KAIST数据集转换为rosbag1
[论文阅读] 软件工程 | 需求工程中领域知识研究：系统映射与创新突破张较瘦_ 前沿技术论文阅读软件工程
需求工程中领域知识研究：系统映射与创新突破论文信息DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyarXiv:2506.20754DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyMarinaAraújo,JúliaAraújo,RomeuO
论文阅读：2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译Qwen3技术报告Qwen团队摘要在这项工作中，我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型（LLM），旨在提升性能、效率和多语言能力。Qwen3系列包括密集型
[论文阅读] 软件工程 | 探索软件生态系统中的开发者体验关键因素
探索软件生态系统中的开发者体验关键因素：从研究到实践引文格式@article{Zacarias2025,title={ExploringDeveloperExperienceFactorsinSoftwareEcosystems},author={Zacarias,RodrigoOliveiraandAntunes,L{\'e}oCarvalhoRamosandBarros,M{\'a}rciod
Fast Image Deconvolution using Hyper-Laplacian Priors论文阅读青铜锁00 #退化论文阅读论文阅读图像处理
FastImageDeconvolutionusingHyper-LaplacianPriors1.论文的研究目标与实际意义2.论文的创新方法2.1核心框架：交替最小化（AlternatingMinimization）2.2x子问题：频域FFT加速2.3w子问题：高效求解的核心创新2.3.1问题形式2.3.2查找表法（LUT）2.3.3解析解法（特定α\alphaα）2.3.4通用α\alphaα
[论文阅读] 人工智能 + 软件工程 | AI 与敏捷开发的破局之路：从挫败到成功的工作坊纪实张较瘦_ 前沿技术论文阅读人工智能软件工程
AI与敏捷开发的破局之路：从挫败到成功的工作坊纪实论文信息arXiv:2506.20159AIandAgileSoftwareDevelopment:FromFrustrationtoSuccess–XP2025WorkshopSummaryTomasHerda,VictoriaPichler,ZheyingZhang,PekkaAbrahamsson,GeirK.HanssenSubjects:
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl