AI智能体执行能力难题：API限制与RPA深度整合解决方案

论文、项目、产品不断涌现，AI Agent工具使用瞄准RPA越来越多的AI Agent项目正在融合RPA，背后的逻辑是什么？被遗忘在角落的RPA，成了提升AI Agent执行能力的天选神器由RPA厂商推出的RPA Agent，与市面上的Agent有什么不同？源自API的实验性AI智能体越来越多，基于RPA的实用性AI Agent稳扎稳打API难以解决AI智能体执行能力问题，AI Agent深度落地锁定RPA

文/王吉伟

LLM（Large Language Models）刚爆发之时，很多人认为RPA要完了，自然语言交互+API操作足以干掉任何UI自动化工具。

然而，大语言模型应用发展到AI Agent这一步，大家才发现API并不是万能的。Agent平台雨后春笋一般出现，但所构建的大多Agent只能在问答与订餐、买机票之间徘徊。

不能参与复杂业务流程的Agent，也就无法帮助企业更好地增效降本。

为了让Agent深度参与到ERP、CRM等企业管理软件的自动化操作中，除了构建与生成更多的API及相关函数，UI自动化也再度成为解决问题的关键，成为Agent架构工具使用模块的首选。

面向庞大而复杂的企业管理系统，企业级Agent的工具模块解决方案就变成API与UI兼顾，API用以直接调用插件与工具，UI用于解决非接口软件的连接。

由此，探索Agent与RPA的厂商越来越多。

OpenAI投资了一家主打“RPA 3.0”的初创企业Induced AI，面壁智能联合清华等机构发布了“APA”推出了ProAgent，清华&智谱AI团队发布了专注于GUI图形交互界面的理解和导航的CogAgent，腾讯推出了用于移动端的AppAgent。

这些相关项目，本质上都是Agent与RPA的结合。

其实先一步对“API+UI”类型Agent解决方案进行探索的，是RPA超自动化厂商。从最开始接入LLM到现在推出Agent产品与解决方案，厂商们一直都在积极探索与跟进LLM的应用。

并且早在大语言模型之前，RPA超自动化厂商就已经实现了兼容API与UI。

Gartner曾在2022年RPA魔力象限报告中预测，到2024年，95%的RPA供应商将通过API与UI集成提供自动化。当前融合RPA的超自动化厂商，基本实现了兼顾API与UI。

说到这里，有人可能会问，如果把功能强大的企业级RPA平台作为工具融入Agent架构，这样的Agent产品是不是就能深度参与到企业运营的复杂业务流程？由RPA厂商打造的Agent产品又与其他厂商的产品有什么不同？

本文，王吉伟频道就跟大家聊聊这些。

AI Agent瞄准RPA

今年10月份，OpenAI投资了一家RPA初创公司Induced AI。在Induced AI，用户只需用简单的英语输入工作流程和录屏视频，Induced AI就能将其实时转换为伪代码，并调取多种相关工具，来执行大量重复性任务。

从产品描述中可以看到，Induced AI的“RPA 3.0”形态产品是一款基于大语言模型的智能体。

开始很多人并不知道OpenAI为何要投资一个RPA公司，但随着AI Agent越来越热，在大家意识到其落地方面存在执行能力不足的问题后，瞬间就想明白了OpenAI的“用意”。

把RPA当作工具去操作API无法触达的企业管理软件，自然就能大幅提升Agent的能力，且只有这样的才有可能打造出企业级Agent。

自此开始，关于Agent与RPA的研究越来越多。

11月份，面壁智能联合清华自然语言处理实验等机构共同发布了新一代流程自动化范式 Agentic Process Automation（APA，相关项目为ProAgent），该范式实现了工作流构建的自动化，以及工作流执行时动态决策的自动化，并通过实验揭示了大模型智能体在自动化中的可行性与潜力。

而该项研究的主要目的，就是将Agent技术的灵活性引入RPA（或者说将RPA作为工具引入Agent架构，也是成立的）。

而在此之前，为了解决LLM面对用户指令使用外部工具（API）处理高级任务时的不足问题，面壁智能联合来自TsinghuaNLP、耶鲁、人大、腾讯、知乎的研究人员推出 ToolLLM 工具学习框架中的ToolBench数据集，已经囊括16464个真实世界API。

由此，UI自动化对于Agent在真实世界应用重要性不言而喻。

12月15日，清华&智谱AI团队发布了最新研究成果CogAgent-Chat。CogAgent是一个基于180亿参数规模的视觉语言模型（VLM）的图形用户界面（GUI）智能体，专注于GUI图形交互界面的理解和导航。

CogAgent使用屏幕截图作为输入，在PC和Android GUI导航任务上超越了基于语言模型的方法，如Mind2Web和AITW，引领了GUI理解领域的最新技术发展。

这个技术理念，与实在智能推出的RPA Agent使用屏幕语义理解技术通过识别屏幕构建UI自动化非常相似，同样属于Agent与RPA技术的结合。

除了创业公司，科技大厂也在关注这个领域。最近腾讯和德州大学达拉斯分校的研究团队合作开发了一个名为AppAgent的项目，该项目可以通过自主学习和模仿人类的点击和滑动手势，在手机上执行各种任务。

这包括在社交媒体上发帖、帮助用户撰写和发送邮件、使用地图、在线购物，甚至进行复杂的图像编辑。AppAgent已在50个任务上进行了广泛测试，涵盖了10种不同的应用程序。

这个项目，可以看作Agent与RPA结合在手机端的应用。

除了上述项目，王吉伟频道也接触过几个智能体创业项目，都采用了Agent+RPA这个模式。

LLM厂商、科研机构以及科技大厂对于Agent和RPA的探索与研究，进一步验证了当前阶段RPA对于AI Agent在各领域落地应用的重要性。

背后的逻辑

相较于直接使用LLM，目前的AI Agent产品在体验上的优势尽显：

首先，智能程度和普适性高，能较好的理解和推理复杂的任务并且做出规划；

其次，能高效判断并使用外部工具，整个过程的衔接非常流畅。

但随着更多的使用，大家发现当前Agent的实验性强于实用性，存在两个影响应用的重要问题：

一是效果不稳定，多步推理能力不够。大部分产品demo看上去效果惊艳，但对于抽象复杂的问题，能有效解决的比例不到 10%，只适合解决一些中等难度的问题。

二是外部生态融合度不高。第三方API支持的数量和生态不多（基本以搜索和文件读取功能为主），API覆盖范围不够广，很难做到比较完整的跨应用生态。

大家知道，目前最流行的也是最理想的AI Agent框架是由OpenAI提出的“LLM+记忆+规划+工具使用”四件套。

对于一款AI Agent来说，LLM、记忆和规划担当了任务的分析、拆解与规划，工具使用则关系着执行任务的能力。任务规划得再好，没有执行能力也无法完成任务。

上面第一个问题关联的是用户体验与实际效果，当然还要看Agent面向什么应用场景。

如果是2C场景比如购物分析等效果不稳定或者等待太长时间，大概率会让很多用户放弃使用。

但若是2B场景比如用于程序构建，其自动化生成应用及业务流程的能力，远比之前手动输入代码或者拖拽式的无代码操作的效率要高得多。

而第二个问题则是企业应用Agent的关键，Agent主要通过API来调用各种插件工具去执行各种任务，工具越强大执行能力也越强。

相关研究数据统计，目前公共和私人API的应用数量已接近2亿。在国内，仅2022年就有6700多万个API被创建。

但对于大型企业异构且复杂的信息化环境来说，这些API仍然无法满足其个性化、安全性等方面的需求。

加上很多企业软件系统缺少API以及开发成本过高等因素，使得Agent无法操作更多的企业管理软件，阻碍了AI Agent的跨部门、跨领域应用，执行能力大打折扣。

这种情况下，在工具调用上，如果想打造一款能够参与复杂业务流程的企业级Agent，不只需要通过API调用工具，更需要通过UI自动化实现各种软件连接。

RPA和AI Agent有着很强的关系。接口的设计原则是“高内聚、低耦合”，实际上很多软件很难有接口，这时候RPA的作用就尤为重要。把API和RPA封装起来作为“手和脚”，结合大语言模型“大脑”，Agent才能真正实现无所不能的智能自动化。

由此，一些组织重新把目光重新聚焦到RPA身上。

使用RPA通过基于LLM的AI Agent自动执行业务流程任务企业级应用，并构建自动化流程的长期维护机制，也成为更多组织在智能自动化方面新的研究课题。

同时，Agent的执行能力落点到RPA，也使得已经积累大量数据、经验、技术以及生态能力的RPA厂商所推出的Agent产品，受到更多关注。

尤其是发布相关领域模型的厂商，更是广大企业与投资机构关注的重点。

RPA Agent的优势

由RPA超自动化厂商推出的基于RPA构建的AI Agent，或者将RPA作为工具的Agent，这里将其称之为RPA Agent。

目前已经出现很多Agent构建平台，也出现了大量Agent产品。但如果仔细观察这些产品，会发现大多数产品还只是知识问答类的对话机器人，少部分可以通过API操作部分工具或者适用于Agent平台的内部生态，与OpenAI推出的“准Agent”产品GPTs相似。

这些封装了大语言模型产品能力的类智能体产品，或者说是智能体的早期产品，跟欧美技术圈所定义的智能体还有一些差距，在能力上缺少了调用API的灵活性，也缺少了用RPA去连接更多管理软件的通用性。

类似的智能体能够胜任内容生成、推理分析及反馈等，对于一些不需要太多企业管理系统的中小微企业大部分业务运营都能胜任。

但在执行层面就要差很多，不能在生成内容后执行其他业务流程的任务自动化，缺少了对长流程的支持，无法调用工具去完成复杂业务流程的自动化执行。

与这类Agent相比，RPA Agent恰好可以解决上述Agent难以解决的问题。

RPA本身就是为解决UI自动化而生，用于弥补API自动化覆盖范围小、开发难度大等的不足。

为了保证RPA运行的稳定性，厂商们在技术及产品上面下了很大的功夫，比如屏幕语义识别、IPA模式等，这样的产品作为Agent的调用工具，具备操作大型企业复杂业务流程的天然属性。

在上一轮业务数字化改造中，大量企业在业务流程自动化上都引入了性价比很高的RPA超自动化解决方案。LLM爆发后，超自动化厂商都在积极融合LLM，并且现在开始陆续推出Agent解决方案。

其实对于已经引入RPA超自动化解决方案的企业来说，想要享受Agent红利很简单。如果RPA服务商已经推出Agent解决方案，只需要将原有解决方案中使用的产品或者技术升级成为Agent解决方案即可，一般而言厂商可以提供技术平移及迭代的服务。

这样企业就不用再去了解和引入新的Agent解决方案，避免更多的投资与开

chatGPT

近期文章

互联网资讯 · 2024年2月1日

AI智能体执行能力难题：API限制与RPA深度整合解决方案

Need more than content? Move into the product flow.