大模型GUI系列论文阅读 DAY3续4:《TREE SEARCH FOR LANGUAGE MODEL AGENTS》
摘要自主代理由语言模型(LMs)驱动,已在执行诸如网页自动化等决策任务方面展示出良好前景。然而,语言模型的一个主要局限在于:它们主要针对自然语言理解和生成进行了优化,在解决现实世界的计算机任务时,难以应对多步推理、规划以及环境反馈的利用。为了解决这一问题,我们提出了一种推理时搜索算法,使语言模型代理能够在交互式网页环境中执行显式的探索和多步规划。我们的方法是一种基于最佳优先(best-first)