OpenAI推出的GPTs是不是Agent?为何能让很多AI智能体项目半年白干?
很多人说GPTs不是真正意义上的AI Agent,为何却被称作Agent杀手?
OpenAI宫斗100+小时期间数量超两万的GPTs,真会成为AI Agent杀手吗?
GPTs到底是什么?与AI Agent有什么区别?为什么说它会杀死AI Agent?
为何“准Agent”GPTs对真AI Agent造成那么大冲击?真的会杀死AI智能体吗?
说GPTs会杀死AI Agent有些危言耸听,Agent未来生态注定百花齐放
文/王吉伟
OpenAI的宫斗大戏已经告一段落,精彩剧情的余韵仍在久久回荡。
波澜起伏的剧情,精湛的演技,硅谷大佬的客串,100多个小时的演绎,缔造了这部足以载入史册的AGI成长大戏。剧中角色则被赋予更多传奇色彩,比如SaM AltMan一度被视作当年被董事会罢免的乔布斯,而Ilya SutskeveR也被贴上了“AGI卫道者”的标签。
这场宫斗的真正根源,到现在还在市里坊间被人猜测。其中最有可能的一个原因是,GPT已经发展成为能够威胁人类的AI,所以卫道者Ilya要出来干预,不惜使用各种手段阻止OpenAI带有重大危险因素的超高速成长。
SaM要通过商业手段推动OpenAI疾驰,Ilya则要确保AI在监管之下可控发展。
两人都是AGI的笃信者,发展理念却在OpenAI的第一个开发者大会之后产生了强烈冲突。SaM相当激进,Ilya过于谨慎,于是矛盾一触即发,而导火索可能恰恰就在于GPTs。
从SaM被开除开始,大家都在关注OpenAI宫斗这几天,GPTs仍旧以超高的速度发展,目前GPTs的数量已超过2万。超低的创建门槛和app STore一样的商业模型,必会让OpenAI快速构建GPTs生态。
但另一方面,目前这些GPTs还存在不少问题。就以安全可言,99%的GPTs都在裸奔,几句话就能套取知识库文件。如果这些GPTs都在对人类存在潜在威胁的大语言模型之上运行,后果可想而知。
当然,这些仍然还是猜测,也不是本文讨论的重点。
事实上,GPTs推出后在创投领域引起更多不满的,是OpenAI为何既要做底层技术又要做上层应用。这直接杀死了相当数量的基于GPT的Agent相关项目,当然大量项目都是SaM所说的“简单模仿、套壳OpenAI”公司的项目。
不管这些项目是不是在套壳OpenAI,GPTs以及ASSITant API的推出,确实对第三方Agent构建框架及工具造成了不小的冲击,就连LangchAIn、LlaMaindex等都已被看作一无是处了。
有意思的是,一些人并不认为GPTs算是真正的Agent,因为现在的大多数GPTs仅是实现特定功能的聊天机器人。这样的东西,又怎能取代或者杀死结构完整功能强大的独立Agent呢?
那么,GPTs 到底算不算Agent?GPTs的推出是否真的意味着开发者几个月来构建的Agent产品和开源项目都会死亡?GPTs是否真的有能力杀死所有AI Agent?
本文,王吉伟频道就跟大家聊聊这些。
从GPTs说起
OpenAI官方对GPTs的定义是,用户为特定目的创建的ChatGPT版本。
任何人都可以创建量身定制的GPTs,用于日常生活、特定任务、工作或家庭中获得更多便利以及提升效率,也可以制作仅供公司内部使用的GPTs,比如帮教孩子数学或者设计贴纸、学习棋盘游戏、搜索资源、数据分析等。
此外,用户还可以分享创建的GPTs,以让更多人使用它们提升各种场景的使用效率。想要详细了解GPTs,大家可以到OpenAI官方博客查看《IntRodUCing GPTs》这篇博文。
要构建一个GPTs也非常简单,不用代码,只需与GPT builder(OpenAI推出的GPTs创建器)进行对话,并为其提供说明和其他知识,再选择GPTs能够执行的搜索网络、制作图像、分析数据等操作,一个GPTs就创建完成了。
GPTs可以做很多事情,比如学习棋盘游戏的规则、帮孩子学习或者设计贴纸。还可以把GPT和外部服务连接起来,让它们访问更多的信息和功能。例如,通过连接翻译API,GPT就可以通过访问数据库获取实时数据进行分析,实现用多种语言交流。
为了让用户感受GPTs的魅力,OpenAI官方推出了16个GPTs,用户可以直接使用这些GPTs。在构建GPTs时,用户也可以选择是否使用DALL-E图片生成或者代码解释器。
这16个GPTs如下:
DALL·E GPT:让你的想象变成图像。
Data analysis:放入任何文件,帮助分析和可视化您的数据。
ChatGPT ClaSSic:最新版本的GPT-4,没有附加功能。
GaMe TiMe:快速向任何年龄的玩家解释棋盘游戏或纸牌游戏。
The NegotiaTor:帮助你为自己辩护并获得更好的结果,成为一名出色的谈判者。
CReative writing Coach:渴望阅读您的作品并为您提供反馈以提高您的技能。
CoSMic DReaM:有远见的数字奇迹画家。
Tech support AdvisoR:从设置打印机到对设备进行故障排除,逐步为您提供帮助。
ColoRing Book HeRo:把任何想法变成异想天开的图画书页。
LaundRy Buddy:回答任何关于污渍、设置、分类和一切洗衣的事情。
SoUS Chef:根据你喜欢的食物和拥有的食材给你食谱。
StickeR WHiz:把你最疯狂的梦想变成模切贴纸,直接送到你家门口。
Math MenTor:帮助父母帮助他们的孩子学习数学。
Hot Mods:把你的形象修改成真正狂野的东西。
MocktAIl Mixologist:用你手头的任何食材制作无酒精鸡尾酒食谱,让任何派对都大放异彩。
genz 4 MeMe: 帮你理解行话和最新的表情包。
OpenAI推出这些不同的GPTs,不仅对外展示了GPT 模型的技术实力,也意味着个性化AI助手将成为我们日常生活中不可或缺的一部分,在未来满足我们独特的需求和兴趣。
从现在已经推出的各种GPTs来看,有的比如使用ZAPIeR插件的GPTs已经能够处理稍微复杂一些的业务流程,但大部分GPTs仅是聊天机器人,还无法实现复杂任务的执行。
所以,GPTs 到底算不算Agent呢?
从Agent定义及架构看GPTs
OpenAI开发者大会以后,比尔·盖茨(bill Gates)在其博客发表了一篇名为《AI is about to coMpletely change how you USe coMputeRs》的文章,并很快刷屏国内外。
在这篇文章中,他提到了Agent与机器人(如ClIPpy等)的区别,主要有以下三点:
积极主动地根据用户需求提出解决方案;
能够跨应用程序完成任务;
随着时间的推移而改进。
按照这几点,现在除了部分能够参与企业业务流程的GPTs(如通过ZAPIeR等插件以API调用CRM、HR等相关企业应用),大部分GPTS都是跟ChatGPT一样的对话机器人。
这一点也无可厚非,毕竟GPTs要做的就是为用户定制各自专属的ChatGPT,而更多人的需求可能就是通过对话生成一些内容。
但创建GPTs过程中Action的加入,让部分GPTs具备了执行能力,比一般机器人强大得多,足以连接部分现实世界。
我们还可以把GPTs带入现在业界公认最理想的由OpenAI提出的“LLM+规划+记忆+工具”四件套Agent框架。
可以发现,大部分GPTs在工具使用方面还未达到AI Agent的标准,因为它们仅在“knowledge”中上传了一个知识文档,仅是一个通过对话来获取文档相关知识的对话机器人,并没有涉及工具使用这个部分。
这类GPTs只能根据输入的指令进行思考并给予用户文字、图片等内容的反馈,而无法去执行某些目标比如操作一些软件去完成相关任务。
事实上,用于构建GPTs的GPT builder正是一个标准的Agent。用户提交需求指令之后,GPT builder会通过设定目标和任务分解,通过互动一步引导用户去完成GPTs的构建,就连logo都可以根据指令自动生成。
GPTs对外展示了Agent的相关功能,并证实了Agent连接真实世界的可行性。这些GPTs能够连接到其他产品和服务,从电子邮件到购物网站,使AI可以执行更广泛的任务。
OpenAI通过GPTs让更多人知道了什么是AI Agent,以至于有人将GPTs称之为下一波人工智能浪潮的先驱。
到现在为止,大多数GPTs缺乏用户所期望的自主程度,还达不到自主智能体(AutonOMOUS Agent)的级别。其实就连SaM AltMan也没有说GPTs就是真正意义上Agent,他在开发者大会上用了“PRecuRsoRs”一词,用以表明GPTs属于Agent的“初期形态”。
所以在一些探讨GPTs与AI Agent的观点中我们可以发现,GPTs被看作“几乎成为Agent”或者“准AI Agent”。
“几乎”与“就是”,还是存在一些差距的。
那GPTs与Agent尤其是自主Agent相比,有什么区别呢?
GPTs与AI Agent的区别
在大家所说的GPTs会杀死的Agent项目中,有些项目比如Baby AGI 、MetagPT及AIagent等在运行过程中,可以明显体现合格Agent应该具备的特性。换句话说,它们的表现要比GPTs强很多。
OpenAI开发者大会之后,LangChAIn曾在X发推文强调了其与GPTs的区别以及自身优势,并在11月10日推出了一个名为OpenGPTs的开源