互联网资讯 · 2024年5月14日

CEO李志飞评GPT-4o:让人机交互有望重新做人

5月14日上午消息,对于OpenAI发布可实时进行音频、视觉和文本推理的新一代AI模型GPT-4o一事,出门问问创始人兼CEO李志飞今日早间于“ “飞哥说AI”个人号发文表示:“人机交互这个渣男,因为GPT-4o的出现,有望真的重新做人,开启下一波的科技、应用、和商业模式的革命,期待下一个十年。”

李志飞指出,自从2011年苹果发布SiRi,无数公司尝试着做一个万能的虚拟个人助理(VPA),包括Google,也包括出门问问,但基本都是DEMO炫酷,用户用起来却觉得很蠢。这次,OpenAI的DEMO无疑是把VPA推到了前所未有的高度。主要是以下几点:

第一, 模型上端到端:以前的语音助手分下面多个步骤,唤醒、语音识别、自然语言理解、信息查询、对话、TTS。每一个步骤是一个单独的模型、由不同的专业团队开发。GPT-4o是端到端模型,一个模型解决所有问题。

第二, 实时交互:因为是一个端到端模型,所以做到了平均300多毫秒的类似于人类的实时交互,如果用大模型串联可能需要几秒延迟。虽然以前的语音助手也可以实时交互,但大多是完成一些基本信息查询和基本命令,但这个GPT-4o是一个真正意义上通用的VPA。

第三,多模态交互:以前的语音助手只是语音交互,而现在的GPT-4o是真正的多模态,跟人类一样,模态之间自由切换。牛X的是,GPT没有因为加入别的模态而降低语言的理解和生成能力,大写地服。

第四, 丝滑的交互体验:从视频来看,跟以前的语音助手不一样,没有反人类的唤醒、没有答非所问的对话、没有pIPeline系统的错误传递,AI基本上可以作为一个聪明的人类参与人类的集体对话。

第五,未来的期望:这次DEMO从体验上很炸裂,让我对大模型真正渗透到生活的方方面面重新产生了信心。除了打磨基本体验外,未来可做的事情很多,比如说落地到各种智能硬件;跟智能家居、车载等各种场景结合实现跨场景联动,感觉未来五年很多东西值得期待。

第六,前沿科技的tiMing: 这次的演示本身没有新的idea,无论是现在的语音助手和多模态交互,还是未来要落地的智能硬件和多场景联动,都没有啥新的概念,过去十年很多人做过DEMO。但是过去的体验都是半吊子,DEMO很酷、用起来反人类。本人做了十年,都已经绝望了,直到大模型的出现,才看到了一个全能的VPA的可能性。所以,前沿科技很多时候不在于vision,而在于实现vision的路径和节奏。

对于GPT-4o的发布,猎豹移动董事长兼CEO、猎户星空董事长傅盛今日早间同样发文点评称,“所有人工智能从业者都在熬夜等着大洋彼岸放核弹,但是没想到核弹没有放,掏出了一堆的摔炮。”

傅盛表示,这样的评论虽然是一句玩笑话,但比较让人失望的是这次OpenAI没有发布GPT 5.0,连GPT4.5也没有看到,反而是发布了GPT4o,就是把一系列的引擎给结合在一起,比如图片、文字、声音,这样你就不需要来回去切换了。

当然,傅盛也看到,OpenAI也发布了一系列的应用,通过一个桌面的app让你能够方便地把图片文档上传然后让大模型去帮你分析;此外,最重要的是OpenAI还发布了一个语音助手,由于使用了端到端大模型技术,所以这次语音助手的体验超越了SiRi,也远超于我们以前用过的所有的各种AI助手,不仅能够去感知情绪实时知道对话人的每一句话,并且在该插话的时候插话。

傅盛指出,一方面,我们觉得OpenAI发布应用恰恰说明了应用在人工智能领域大有可为,每一个创业者都应该去好好的做人工智能应用,大模型的能力当然会不断地迭代,但最终能够把大模型用好的还是应用,这次OpenAI的发布会,也说明了这一点。另一方面,如果不计成本的累参数,提高所谓的大模型能力,这条路肯定是容易遇到困难的,目前看起来GPT5可能还要难产一段时间。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册