AIGC如何借AI Agent落地?TARS-RPA-Agent破解RPA与LLM融合难题

图片

文/王吉伟

大语言模型(LLM,Large Language Model)的持续爆发,让AIGC一直处于这股AI风暴最中央,不停席卷各个领域。

在国内,仍在雨后春笋般上新的大语言模型,在持续累加“千模大战”大模型数量的同时,也在不断填补垂直大语言模型在各个领域的空白。

每个领域都会有自己的大模型,每个领域都会有厂商推出自有模型。更多的LLM,让AIGC以更迅猛的速度进入并影响更多业务场景。

AIGC并不只有C端用户所看到的用AI工具生成文字、图画、视频等各种内容,还有B端的用AI直接生成以及驱动管理系统生成各种可执行的业务流程。

图片

相对于C端产品直接引入生成式AI或者部署开源模型就能搞定,B端产品要在引入、部署及自研LLM的基础上做更多的训练、微调与优化等,才能保证LLM能够与已有产品更好的融合,以更好地发挥各自所长。一旦LLM与企业管理软件融合好,便意味着大模型的顺利落地。

而大语言模型的私有化部署能力,往往意味着厂商们更大的商机。这样,LLM与企业管理软件的融合成了重中之重。发布领域大模型与提供私有化部署,也成了广大B端厂商主流做法,更使得能够代替用户和大模型进行交互的AI Agent ,在Prompt系统工程之后成了香饽饽。当前,AI Agent已是公认大语言模型落地的有效方式之一,它让更多人看清了大语言模型创业的方向,也让投资者们更加看好LLM、Agent与已有企业管理软件的融合应用。

在这其中,因为RPA、低代码等技术在自动化方面的天然属性,并且自然语言交互能够为其带来相当的质变,能够为客户端到端自动化的超自动化如何与AI Agent融合,也成了很多投资机构重点关注的领域。

图片

说到这里,有人可能会问:超自动化与LLM的融合进展到了什么程度?有没有厂商在做AI Agent方面的尝试?产品体验如何?恰好最近实在智能正式发布了TARS大模型,并在业界首发了基于大模型的Agent产品TARS-RPA-Agent。

同时为了搞明白这款产品,发布会后王吉伟频道还做了专访。本文就以这款产品为例,跟大家聊聊上面的几个问题。

基于大模型的产品级Agent:TARS-RPA-Agent

看到Agent,很多人会想到AI Agent及其代表作AutoGPT。

AutoGPT是一个基于ChatGPT的工具,能帮你自动完成各种任务,比如写代码、写报告、做调研等等。只需要告诉它要扮演的角色和要实现的目标,它就能利用ChatGPT和谷歌搜索等工具,不断“思考”如何接近目标并执行,还可以看到它的思考过程。

图片

AutoGPT会根据用户提出的目标制定并自动化执行完整计划,解决了被大多数人所诟病的“与LLM交互过程中的无效提问及反馈”等诸多问题。

AutoGPT的火爆,也让AI Agent快速出圈。AI Agent是指人工智能代理(Artificial Intelligence Agent),是一种能够感知环境、进行决策和执行动作的智能实体。

它通常基于机器学习和人工智能技术,具备自主性和自适应性,在特定任务或领域中能够自主地进行学习和改进。LLM擅长处理和生成文本,但只有给它输入才会产生输出,仍然是一种被动使用模式。AI Agent则提供了更广泛的功能,尤其是在与环境的交互、主动决策和执行各种任务方面。

AI Agent以LLM为大脑,再赋予任务规划能力、长短期记忆力、工具使用能力,即可实现自动化处理更复杂的任务。简单来说,AI Agent基于LLM驱动Agent实现对通用问题的自动化处理。

图片

AI Agent具备独立的思考和认知功能、拥有记忆,能进行思考、逻辑推断和自我反思,可以阅读和在线学习,擅长利用适当的工具处理问题,还能策划并根据实际情况调整任务的优先级。

可以说,AI Agent为LLM提供了行动能力,真正释放了LLM的潜能。

那RPA与AI Agent结合,会有什么样的化合反应呢?

这次实在智能业界首发的TARS-RPA-Agent,正是一款AI Agent类RPA产品。但需要说明的是,与AutoGPT只提供智能体框架不同。

实在智能创始人兼CEO孙林君(阿宝)告诉王吉伟频道,TARS-RPA-Agent是一个真正的产品级Agent,是普通用户不需要部署就能方便使用的大语言模型智能体。经过技术优化以后的Agent产品,不会在使用时陷入逻辑上的死循环,也不会过度消耗tokens。

前文讲过AI Agent的核心是LLM,TARS-RPA-Agent所依赖的LLM是实在智能基于通用大模型基座的自研垂直“塔斯(TARS)”大模型。

TARS大模型具备优异的文本生成、语言理解、知识问答、逻辑推理等主流能力。其中,实在智能与湘财证券共建的“自研、有效、安全、可信任、可落地”的财经行业大模型TARS-Finance-7B,保留了生成式大模型的通用技能,并在金融财经领域得到了显著的加强和提升,在多个中英文的通用基准测评集和财经领域基准测评集上均取得良好成绩。

图片

简单来讲,TARS-RPA-Agent是一个基于“TARS+ISSUT(智能屏幕语义理解)”双模引擎、有“大脑”,更有“眼睛和手脚”的超自动化智能体,是能够自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验的RPA全新模式产品。

TARS-RPA-Agent采用以TARS大模型和ISSUT智能屏幕语义理解为基座的技术框架。该技术框架分为两层结构:底层是包括通用基础模型和各个垂直行业基础模型在内的TARS系列大模型和智能屏幕语义理解技术;上层是依托这两项关键技术完成全面升级和改造的超自动化产品。

能够在AI Agent盛行不久便能打造出AI智能体产品,得益于长期的技术沉淀与经验积累。自推出RPA产品至今天发布TARS-RPA-Agent,实在智能的产品体系已经历三次重要迭代:

2018-2021年,实在第一代专家模式RPA,实现可视化拖拉拽构建数字员工。

2021-2022,实在第二代简易模式IPA,基于首创ISSUT智能屏幕语义理解技术,跳出IDE技术模式,开启全球首个点选用模式RPA。

2022-2023,实在第三代对话模式RPA(ChatRPA),结合大语言模型基础,实现超自动化Agent,打造业界首款计算机视觉与大语言模型结合的智能体产品,以全新体验人机交互开启对话式流程创建时代。

图片

正是因为多年的持续创新与不懈努力,使得实在智能TARS-RPA-Agent模式ChatRPA,成为国内首个基于大语言模型和智能屏幕语义理解的产品级Agent,真正实现流畅的对话式生成业务流程,因此一经发布就得到了业内外的广泛关注。

说了这么多,产品体验如何呢?不要急,下一节就会讲到。

像生成文本一样生成流程

在采访中,实在智能演示了几个案例。

其中一个是web端案例,演示如何通过与TARS对话,ChatRPA自动创建在京东查询商品数据的流程。在新建流程的对话窗口输入“查询京东中最畅销的电视机”,提交以后塔斯反馈了流程创建的两个执行计划。

在计划详情中可以查看每个计划的执行步骤,还可以通过多轮对话修改以创建更复杂的流程。点击执行后,ChatRPA就会进入IPA模式按计划的详情步骤开始执行。

图片

遇到不能执行的步骤,只需要人工通过继续对话或者按照提示点击相应页面元素,流程就能持续创建,全流程基本都是自动化创建,人工参与的部分已经很少。并且,还可以在流程执行完毕的基础上,通过对话继续增加新的执行计划以完善流程。

在演示中,最后增加了一轮对话:将商品名保存到桌面TXT文件中。提交以后,ChatRPA会按照新的计划继续执行。

实在智能产品专家拓海告诉王吉伟频道,最后这个计划看起来简单,实则体现了ChatRPA的两个能力:一是逻辑推理能力,它能够将之前各个组件变量的逻辑关系进行串联;二是代码生成能力,在没有基础组件的流程步骤中它可以直接生成一段代码,并把这个代码封装成为自建组件。

重点在于,这个组件是可以复用的,以后在流程创建中有需要的时候可以随时调用这个组件。

图片

在王吉伟频道看来,对于没有编程能力的普通用户而言,之前只能围绕已有组件去做各种形式的流程实现,确实比较复杂。现在基于大语言模型的ChatRPA具备了“遇河搭桥”的能力,在没有组件可调用的情况下直接生成一个组件,进而保证流程的创建与执行。

这就相当于用户在创建流程的时候身边有个具备业务能力的程序员在做指导,总能以最简单最优化的方式帮助用户去实现各种流程的创建与执行。所以,理论上已经没有任何流程的创建能够难住ChatRPA。并且随着不断的数据喂养与加强学习,以后它还能生成更复杂的组件以创建复杂的长流程。

组件是可以复用的,流程也是一样的。阿宝告诉王吉伟频道,流程并不是一下就生成的,TARS-RPA-Agent会不断修改用户意图,不断完善流程,流程可以越做越复杂,最后会变成一个高可用的标准流程。

图片

简单地讲,让基于大语言模型的RPA自动创建流程主要分为两步:第一步是分析操作对象界面元素,第二步是在流程步骤中填充需要被操作的元素。

在阿宝看来,大语言模型本质上是一个语言模型,它能够分析逻辑,却看不到要操作的对象。而通过计算机视觉告诉LLM操作对象在哪里,它就可以进一步去操作各种对象驱动RPA去创建各种流程。

所以,TARS-RPA-Agent与其他Agent的不同之处在于,目前大多数AI Agent产品仍是基于语言模型的综合应用,而TARS-RPA-Agent是计算机视觉和大模型的结合。这在全球Agent领域也是不多见的,更是RPA领域的首创。

能够实现这一点,更得益于实在智能很久之前就布局的智能屏幕语义理解技术。

拓海告诉王吉伟频道,过去的IPA模式,用户可能还得根据AI推荐去找一些需要被操作的对象元素。TARS-RPA-Agent则更进一步,不需要去指定元素,只需要告诉模型要操作的目标是什么,它刷一下当前的屏幕,就能根据屏幕语义理解意思,直接命中目标元素。

如果没有命中的话,则需要一些人机协助填充目标。并且在协助过程中,TARS-RPA-Agent能够记住这些元素及操作,逐步优化语义理解,让流程及组件复用性更高。

图片

此外,TARS-RPA-Agent还实现了语音流程创建的体验大提升。

通过对话机器人+RPA进行语音对话式RPA流程创建,已经是比较常见的解决方案。现在市面上不乏接入天猫精灵、小度等语音机器人调用RPA的产品。

但这种应用需要建立在已经创建好的流程基础之上,需要先以人工方式创建好流程,才能实现以对话机器人调用流程。TARS-RPA-Agent的不同之处在于,用户只需要对机器人说出需求,机器人即可完成即时的流程搭建和执行,而不再需要提前创建流程,真正实现即时场景的“你说机器人做”。

整体演示下来,给王吉伟频道的感觉是,结合AI Agent及屏幕语义理解技术的ChatRPA,真的实现了像生成文本一样生成流程,使用体验得到倍数级提升。尤其是通过语音即时创建与执行流程,已经初步有了《钢铁侠》中托尼使用AI助理塔维斯即时执行任务的感觉。

“边探索边创建”流程生成方式

ChatRPA能够实现流畅的对话生成自动化流程,也体现了实在智能对于产品的几点思考:

首先,入口要好找,方便进入,可根据场景需要可随时唤起;

其次,使用要灵活,不仅能将一个任务完整的自动化流程规划生成出来,还能应对复杂特殊的场景,能够生成代码组件,也能保持和发挥大模型的特色,具有广阔知识的查询和建议生成能力。

再者,所生成的流程要能够工业化应用,就需要容忍模型的不完整,必须支持人机协同,也就是可对流程进行修改、增加、删除,当然最基本的要求,可直接运行。

图片

正是这些思考,使得实在智能没有走“全流程一次生成”的路子,而是采取了一种“边探索边创建”的递进式流程生成方式。

要知道,流程中的各种元素是时刻在变的,所以流程创建也应该以一种更灵活的方式实现中途修改,需要每一步都结合用户的意图去探索性的操作,不然就会出现一次生成完整流程而不能使用或者经过大量修改才能使用的情况。

在这个基础上,TARS-RPA-Agent不但实现了单步寻优,还做到了把每一步的执行过程和结果都展示和反馈出来。事实证明,只有“边探索边创建”的模式,才能让RPA真正融合LLM并发挥真正的作用。而为了开发一款真正意义上的RPA/超自动化Agent,实在智能至少克服了包括打造“边探索边创建”模式在内的四重挑战。

“你说,TArs做”背后的四重挑战

这次发布会的主题是:RPA新境界—你说TArs做。这个主题,也映射了实在智能在TARS-RPA-Agent的终极目标是“你说,PC做”,要真正实现包括流程创建等各种业务处理的“所说及所得”。

我们已经知道,TARS大模型在语义理解、内容生成、多轮问答、信息抽取等方面具有独特优势和强大能力。要实现这个目标,是不是把TARS的能力接入到RPA中就够了?是不是大模型就能直接为生成流程、完成工作?

经过一系列论证与测试,在实在智能看来,想要实现“你说,TArs做”这个目标,并不是简单结合就可以的。

图片

想要让TARS听得懂人话并完得成各种任务,至少面临四重挑战:

挑战一:不能自主拆解任务。

实际场景中的复杂指令往往蕴含在简洁的语句当中,想要TARS-RPA-Agent既能接任务又能做任务,无法依靠大模型生成一段Python代码或简单调用几个RPA组件就能实现,而是需要它理解指令并拆解成可执行的子任务和步骤。

挑战二:无法感知当前环境。

TARS-RPA-Agent必须对周边的环境有充分的认知、理解和交互,知道它是谁以及它在哪。在RPA领域中,TARS-RPA-Agent所处的周边环境也就是运行流程的那台电脑,以及所要操作的各种网页、软件和电脑屏幕等。

单纯依靠一个大语言模型做不到这一点,它需要超越语言大模型技能之外的、真正人类视角的操作对象理解能力。

挑战三:不能边执行边反馈。

任务执行应该随地关注任务的进度如何,有无风险,并通过不断的“执行-反馈-修正”来确保任务正常运行。

TARS-RPA-Agent面临同样问题,一次性生成但无法成功执行的整段流程是没有意义的,它需要保证每一步操作的正确性,不会因为领会错了意图,或者前一步操作失误,而导致当前步骤点错按钮、输错账号或者发错邮件。

挑战四:无法记忆历史经验。

大语言模型一直存在一个很大的问题是缺乏长时记忆,TARS-RPA-Agent需要学习历史经验,并通过历史案例不断提升决策能力。

但如果不能长时记忆,显然就无法胜任与学习各种能力,因此它需要超出一般大模型的自主迭代能力。

图片

针对上述四重挑战,实在智能采取了不同的技术、设计和方法来应对,最终将TARS-RPA-Agent打造成为一个有大脑眼睛和手脚的能够自主拆解任务、感知当前环境、执行并且反馈和记忆历史经验的IPA全新模式和超自动化智能体。

有了对AI Agent类RPA产品的深度认知、全新理解,基于“ISSUT智能屏幕语义理解+TARS垂类大模型”架构的ARS-RPA-Agent模式ChatRPA,也具备了“三智三可”的特色优势。

“三智”即智能理解、智能分析和智能生成:

■ 智能理解:能智能理解对话内容,理解所描述的任务、指令;
■ 智能分析:能分析并拆解任务,规划任务过程和动作;
■ 智能生成:能映射成自动化组件,智能填充好属性、对象等。

“三可”为可以执行、可以解释及可以修改:

■ 可以执行:不只是生成过程规划,而是可执行的自动化流程;
■ 可以解释:不仅是任务拆解过程说明,还可查看每个动作参属性数;
■ 可以修改:不仅可执行,还可随意插入、修改和删除的动作。

图片

“三智三可”体现了实在智能ChatRPA“真实实用”的宗旨,也让其产品真正实现了“像生成文本一样生成流程”的超易用性体验。

后记:TARS-RPA-Agent的未来

TARS-RPA-Agent能够在哪些领域获得长足的发展,一定程度上取决于TARS大模型在哪些领域有更强的能力。目前TARS-Finance-7B在金融领域的能力是有目共睹的,在多个大模型评测中的综合评分都远超行业平均分数。

对于为何要优先选择金融领域,阿宝告诉王吉伟频道,首先在于金融领域的公开数据、权威数据比较多且相对规范,其次在于金融是RPA市场份额增长比较快的领域。

除了金融领域,实在智能也正在训练和微调塔斯大模型在其他领域的能力。并且实现起来也比较简单,只要把诸如法律、人力资源等领域的语料加入并进行持续训练和微调,就能打造面向这两个领域垂直行业模型。

TARS-RPA-Agent之所以备受瞩目,在于它是业界首个大语言模型与计算机视觉有机结合的Agent,这是国内厂商在AI Agent领域初步尝试的成果,为超自动化厂商以及To B领域产品的未来发展提供了一个方向,对RPA行业的发展具有里程碑的意义,也必将成为大语言模型落地的典型AI智能体案例。

图片

在TARS大模型+ISSUT的后续发展上,实在智能早已制定计划。

首先,会在充分评估和修正(模型性能、安全性等方面)后,对的TARS-Finance-7B模型进行开源,以促进生成式大模型方向的学术研究和应用发展;

其次,会继续扩大TARS垂直大模型的参数规模,让更多模型能力在更大的参数尺度上涌现,目前一个70B的行业大模型已经在训练和优化当中;

第三,面向RPA领域的全新TARS-RPA-Agent功能则将在未来2个月内随着功能、性能等测试的进一步完善,随着新版本的发布而开放试用。

可以预见,有了这些发展计划,TARS+X的全新模型及全新产品将会有更多可能。

图片

除此之外,TARS-RPA-Agent的组件自动生成,也有更大的想象空间。对话式RPA的易用性前所未有,任何人都能通过简单对话就能实现业务流程创建。用户只需通过简单的自然语言指令,便能在自动化或者人机协作构建业务流程的过程中生成可复用的业务流程组件。

这意味着,普通用户在使用ChatRPA的同时也将成为组件开发者,大量组件都将伴随着他们的流程创建而生成,而不再依靠各领域的专业开发者去做组件开发,由此组件的开发速度和量级将会产生翻天覆地的变化。

未来这些业务流程和组件还可以上传到应用市场,所适配的应用场景也会越来越丰富。随着更多组件被置入公共组件库,对话式生成流程的精准度、适配度以及用户体验也会越来越好。

这种流程及组件生成的UGC模式,将会真正改变流程构建自动化以及超自动化行业的未来。

图片

从TARS-RPA-Agent来看,TARS+ISSUT这样的技术组合,大语言模型加上智能屏幕语义理解,大概率能够让RPA行业喊了多年的“RPA人人可用”愿景成为现实,也使得“人人拥有一个智能助理”进一步成为可能。

阿宝透露,TARS大模型的名字来源于科幻电影《星际穿越》中的TARS 。

影片中的TARS是男主身边的智能助理机器人,精通各个领域的知识,能够自动处理各项事务,并多次在关键时刻帮男主化险为夷。

在未来计划中,实在智能将会持续推出更多的TARS+X的模型及产品。

相信假以时日,在更多的厂商的努力之下,电影中的“你说TARS做”应用场景也将在现实中无处不在。

全文完

【王吉伟频道,关注AIGC与IoT,专注数字化转型、业务流程自动化与RPA,欢迎关注与交流。】

你可能感兴趣的:(AIGC如何借AI Agent落地?TARS-RPA-Agent破解RPA与LLM融合难题)