大模型GUI系列论文阅读 DAY3:《GPT-4V(ision) is a Generalist Web Agent, if Grounded》
摘要近年来,大型多模态模型(LMMs)的发展,特别是GPT-4V(ision)和Gemini,迅速扩展了多模态模型的能力边界,不再局限于传统任务如图像描述和视觉问答。在本研究中,我们探讨了LMMs(如GPT-4V)作为通用网页代理的潜力,这类代理能够根据自然语言指令完成任意网站上的任务。我们提出了SEEACT,这是一种通用网页代理,利用LMMs的视觉理解能力,实现网页上的操作。我们在最新的MIND