整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
随着 AI 技术的进步,那边在 OpenAI 大杀四方、用 Sora 彻底革了视频的命之际,这边的微软悄然对传统用户界面“出招”,最新带来一款用于构建用户界面(UI)交互智能体的 Agent 框架——UFO,能够快速理解和执行用户的自然语言请求,它的发布也向外界展示了未来与 Windows 交互是多么的容易。
UFO 可以在 Windows 内自主回答用户查询,也能够在单个或者跨多个 App 中无缝导航和操作来满足 Windows 操作系统上用户请求。它可以更加智能地理解用户的意图,不用人工干预,自动执行相应的操作。
简单来看,当你想要从一份 Word 文档中提取文本、对照片应用程序中的图像进行观察、以及总结 PowerPoint 中的内容,然后利用所有这些信息撰写一封深度的电子邮件内容并完全自主发送时,你只需要借助一个 UFO 框架就可以完成。
正所谓,以前需要大量手动工作的跨应用程序工作流程,现在可以直接简化为针对 UFO 的简单自然语言指令。基于此,很多人也将 UFO 视为是下一代 Windows 系统的核心。
微软推出首个专为 Windows 定制的 Agent——UFO
值得注意的是,这里的 UFO 并不是指“不明飞行物”,它的全称为 UI-Focused Agent,是一种以用户界面(UI)为中心的代理,主要基于 OpenAI 的 GPT-4V 图像识别模型开发而成,为 Windows 操作系统上的应用程序量身定制。
UFO 采用双代理框架,对图形用户界面(GUI)和 Windows 应用程序的控制信息进行细致的观察和分析,这使得代理能够在单个应用程序内和跨应用程序之间无缝导航和操作,以满足用户的请求。
利用 AI 技术,UFO 可以让用户“说说话”——用自然语言命令就能完成繁琐的 Windows 任务。根据研究团队透露,UFO 是第一个专为 Windows 操作系统环境下完成任务而定制的用户界面代理。在他们看来,这一开创性的 Agent 将改变人们与 Windows 设备的交互方式。
目前 UFO 面向所有用户开源,代码地址详见:https://github.com/microsoft/UFO。
与此同时,微软研究团队还针对 UFO 项目发布了一份 30 页的技术报告:https://arxiv.org/pdf/2402.07939.pdf。
话不多说,让我们先来看看 UFO 到底能用来干些什么?
一、一条指令即可删除 PowerPoint 演示文稿上的所有注释
我们在日常工作中制作 PPT 时,通常会遇到要准备两个不同版本的情况,一版要添加备注,方便自己捋清楚 PPT 内容逻辑;另一版往往更加简洁明了,方便对外。
过去,在用户想要一个没有附带任何说明的干净版本的幻灯片时,传统的方法可能是手动一页一页地去删除备注内容。当然如果 PPT 页数少还要好操作一些,一旦遇到页数超多的 PPT 内容,这无疑是一个繁琐又耗时的工作。
UFO 的到来,可以帮我们有效减少工作量,你只需要对它发出以下请求——“帮助我快速删除测试幻灯片中的所有备注。“
它就可以自动提供解决方案给你。
在实际测试过程中,UFO 直接建议使用“删除所有演示文稿笔记”功能,这是一个经常被 PowerPoint 用户忽视的功能,由于这个功能按钮隐藏的位置较深,没有什么办公软件使用经验的人或许根本找不到。
当 UFO 提供建议之后,它会直接自动导航到“文件”选项,并提供对后台视图的访问。随后,它顺利地过渡到“信息”菜单,单击”检查问题“按钮,并选择“检查文档”,开始检查文档中的注释。
鉴于可能存在误删的情况,UFO 还提供了一层保护功能,即征得用户同意之后才会删除所有注释内容。
二、总结会议纪要,并发送邮件
当向 UFO 发出请求:“我叫扎克。请阅读会议记录以确定所有行动项目,并理解 LLM-training·png 中包含 LLM 培训工作流程,最终撰写一封包含这些内容的新邮件。通过电子邮件地址,发送完整的电子邮件给我们的领导 Hidan ,请他来审查”。
作为回应,UFO 为这项任务制定了一个动态计划:
它在 Word 中激活所需的文档文件,利用 GetTextAPI 从主窗口中提取文本;
紧接着,UFO 切换到照片中的 LLM-training·png 图像文件,观察并生成一个详细的描述;
收集所有必要的信息后,UFO 打开 outlook 应用程序,访问“新建电子邮件”按钮启动”编辑“功能,然后自主输入电子邮件收件人、起草主题和撰写电子邮件正文,包括所有必需的信息。
在发送之前,由于动作的敏感性,安全保护功能会提示用户确认。一旦确认,电子邮件发送。
整个过程如视频所示:
三、联网查找以及下载相关内容
它还能直接帮助阅读 PPT 内容,帮助用户在网上搜索到并打开论文,以及对论文进行总结和下载。
四、一键换 PPT 模板
五、直接在 VS Code 中下载 Docker 扩展
UFO 是如何实现调动多 App 自动化工作的?
毋庸置疑,UFO 可以接受自然语言指令,具有理解用户用自然语言表达的请求的能力,将其分解成一系列逐步的子任务。然后,通过分析屏幕截图和控件信息自动完成 Windows 下各个 App 的操作和请求,极大地提升了工作效率。
那么,它究竟是如何做到的?
对此,在论文中,研究人员解释道,UFO 结合了两个 Agent,它们决定选择哪些应用程序和控件来处理用户请求,其中:
应用程序选择代理(AppAgent)的任务是选择一个正确的应用程序来满足用户的请求。当一个请求跨越多个应用程序,并且任务已在前一个应用程序中部分完成时,此代理还可以切换到另一个应用程序。
动作选择代理(ActAgent),其负责在所选应用程序上反复执行动作,直到在特定应用程序内成功地结束任务。
这两个 Agent 利用 GPT-Vision 的多模态功能来理解应用程序 UI 并满足用户的请求。他们利用一个控制交互模块来确定他们的行动,从而对系统产生切实的影响。
详细来看,UFO 为 AppAgent 提供了完整的桌面截图和一系列可供参考的应用程序,方便了 AppAgent 的决策过程。随后,AppAgent 选择一个适当的应用程序,并制定一个全面的计划来完成请求。然后将该计划转交给 ActAgent。
一旦确定了一个合适的应用程序,它就会在桌面上显示。然后,ActAgent 启动操作来完成用户请求。在每个动作选择步骤之前,UFO 捕获当前应用程序的 UI 窗口的屏幕截图,所有可用的控件都被标注。
此外,UFO 记录每个控件的信息,以供 ActAgent 观察。ActAgent 的任务是选择要操作的控件,然后通过控件交互模块选择要在所选控件上执行的特定操作。这个决定是基于 ActAgent 的观察,它的事先计划,和它的操作记忆。
在执行之后,UFO 为未来的步骤构建一个本地计划,并进行到下一个行动选择步骤。这个递归过程会一直持续到用户请求在选定的应用程序中成功完成为止。这就结束了用户请求的一个阶段。
在用户请求跨越多个应用程序的场景中,ActAgent 会将任务委托给 AppAgent,以便在 ActAgent 完成当前应用程序上的任务后切换到另一个应用程序,从而启动请求的第二阶段。
这个迭代过程将持续到用户请求的所有方面完全完成。用户可以选择交互式地引入新的请求,提示 UFO 通过重复上述过程来处理新的请求。在成功完成所有用户请求后,UFO 结束其操作。
UFO 完成了 86% 的任务,明显高于 GPT-3.5 和 GPT-4
为了评估 UFO 的性能,由于现有的 Windows Agent 存在局限性,该研究团队选择了 GPT-3.5 和 GPT-4 作为基线模型,同时因为这些模型缺乏直接与应用程序交互的能力,所以由研究人员指示它们并提供分步说明来完成用户请求。然后一个人类作为他们的代理人来执行这些操作。
另外,该研究团队使用 WindowsBench 数据集对各种框架进行了全面的定量比较:
根据上图不难看出,UFO 在基准测试中成功率高达 86%,是 GPT-4 的两倍多。另外,根据研究显示,UFO 完成任务的步骤最少,且从安全的角度来看,UFO 达到最高的保障率为 85.7%,这证明它可以准确地分类敏感请求,确认其可以作为一个安全的代理。
与此同时,微软研究团队还对框架进行了 50 项任务的测试,涉及 9 个广泛使用的 Windows 应用程序,包括 Outlook、Photos、PowerPoint、Word、AdobeAcrobat、文件资源管理器、Visual Studio Code、微信和 Edge 浏览器。
最终测试结果如下:
局限性
不过,研究人员也在论文中承认目前的 UFO 还有很大的局限性。
比如,UFO 只能执行 Python 软件包 pywinauto 和 Windows UI 自动化所支持的控件和操作。他们还注意到当 UFO 遇到不常见的应用程序 GUI 时,会出 Bug。
当然,微软计划通过支持其他后端和集成专用图形用户界面模型进行视觉识别来改进 UFO。此外,连接到在线搜索引擎作为外部知识库也可以提高 Agent 适应未知 GUI 的能力。
整体来看,这款 Windows Agent 还不是很灵活,它们也需要支付额外费用。尽管你可以通过 GitHub(https://github.com/microsoft/UFO)在计算机上免费安装 UFO,但它需要 OpenAI 的 API 密钥才能使用 GPT-4V 进行推理,每次请求都会产生费用。它也只能通过命令行访问。
对此,外媒 The Decoder 也评价道,“要让 UFO 这样的概念发挥作用,就需要将其更紧密地集成到操作系统中。理想的情况是,它们在本地运行,以较低的成本提供较快的性能。这也有可能消除对隐私的担忧。
尽管如此,UFO 仍是从根本上改变计算机操作方式的重要一步。与强大的语音识别模式(如 Whisper)相结合,它可以消除对传统界面的需求,尽管这似乎还很遥远。”
UFO 背后的团队
最后同样值得关注的是,这款由微软官方团队推出的 Agent,不少华人工程师参与其中:
Chaoyun Zhang,是微软亚洲研究院 DKI(Data、Knowledge、Intelligence)小组的高级研究员,研究兴趣包括时间序列建模、时空数据挖掘、因果推理以及云服务和 AIOps 的可解释机器学习。
Liqun Li,2012 年于中国科学院软件研究所获博士学位,2006 年于清华大学计算机科学与技术系获学士学位,现任微软亚洲研究院 DKI 组首席研究员,目前专注于构建基于 LLM 的自主代理,用于数据分析和工作流程自动化。
Shilin He,是微软亚洲研究院 DKI 小组的高级研究员。于 2020 年在香港中文大学获得博士学位。在此之前,于 2016 年获得华南理工大学菁英计划学士学位。目前从事云智能/AIOps 方面的研究,旨在将 ML/DL 技术整合到云系统的管理和维护中。
Xu Zhang,微软高级研究员。
Bo Qiao,微软亚洲研究院 DKI 小组的研究 SDE。
Si Qin,现任微软亚洲研究院 DKI 的首席研究员和研究经理。
Minghua Ma,微软亚洲研究院 DKI 小组研究员。他的研究兴趣包括云智能/AIOps。在加入微软研究院之前,他在清华大学计算机科学与技术系获得博士学位。
Yu Kang,是微软亚洲研究院 DKI(数据、知识、智能)小组的首席研究员和研究经理。他还是复旦大学计算机学院兼职教授。此外,他还是香港中文大学的名誉研究员。专注于智能云服务的数据驱动技术。
Qingwei Lin,DKI 研究领域的合伙人研究经理。在云智能/AIOps领域,他在 AAAI、IJCAI、SigKDD、WWW、ICSE、FSE、ASE、OSDI、NSDI、USENIX ATC 等顶级会议上发表约 100 篇论文,并获得 2017 年最佳研究论文奖 ESEC/FSE 的 ISSRE 和 SIGSOFT 杰出论文奖。
Saravan Rajmohan,M365 AI 和应用研究合作伙伴总监。领导应用研究团队与各个 Microsoft 研究小组进行深度协作和合作,推动系统创新以及隐私保护机器学习创新。
Dongmei Zhang,是微软亚洲研究院杰出科学家、副院长,领导数据、知识和智能领域的研究,研究方向包括数据智能、知识计算、信息可视化和软件工程。
Qi Zhang ,微软全球资深副总裁、微软亚太研发集团首席技术官,微软(亚洲)互联网工程院 常务副院长。于 2002 年加入微软,拥有超过 20 年机器学习、大数据、人工智能算法、平台、商业化的从业经历,在产品研发、战略决策、组织构建、人才培养方面积累了丰富的经验。
参考:
https://arxiv.org/pdf/2402.07939.pdf
https://github.com/microsoft/UFO
https://the-decoder.com/microsofts-ufo-abducts-traditional-user-interfaces-for-a-smarter-windows-experience/
推荐阅读:
▶马斯克评视频生成模型Sora:人类认赌服输;OpenAI的GPT商标申请遭拒;传英伟达大幅缩短AI GPU交付周期| 极客头条
▶程序员用 GitHub Copilot 编程的六个月
▶只修改一个关键参数,就会毁了整个百亿参数大模型?| 新程序员