CEO李志飞评GPT-4o：让人机交互有望重新做人

5月14日上午消息，对于OpenAI发布可实时进行音频、视觉和文本推理的新一代AI模型GPT-4o一事，出门问问创始人兼CEO李志飞今日早间于“ “飞哥说AI”个人号发文表示：“人机交互这个渣男，因为GPT-4o的出现，有望真的重新做人，开启下一波的科技、应用、和商业模式的革命，期待下一个十年。”

李志飞指出，自从2011年苹果发布SiRi，无数公司尝试着做一个万能的虚拟个人助理（VPA），包括Google，也包括出门问问，但基本都是DEMO炫酷，用户用起来却觉得很蠢。这次，OpenAI的DEMO无疑是把VPA推到了前所未有的高度。主要是以下几点：

第一，模型上端到端：以前的语音助手分下面多个步骤，唤醒、语音识别、自然语言理解、信息查询、对话、TTS。每一个步骤是一个单独的模型、由不同的专业团队开发。GPT-4o是端到端模型，一个模型解决所有问题。

第二，实时交互：因为是一个端到端模型，所以做到了平均300多毫秒的类似于人类的实时交互，如果用大模型串联可能需要几秒延迟。虽然以前的语音助手也可以实时交互，但大多是完成一些基本信息查询和基本命令，但这个GPT-4o是一个真正意义上通用的VPA。

第三，多模态交互：以前的语音助手只是语音交互，而现在的GPT-4o是真正的多模态，跟人类一样，模态之间自由切换。牛X的是，GPT没有因为加入别的模态而降低语言的理解和生成能力，大写地服。

第四，丝滑的交互体验：从视频来看，跟以前的语音助手不一样，没有反人类的唤醒、没有答非所问的对话、没有pIPeline系统的错误传递，AI基本上可以作为一个聪明的人类参与人类的集体对话。

第五，未来的期望：这次DEMO从体验上很炸裂，让我对大模型真正渗透到生活的方方面面重新产生了信心。除了打磨基本体验外，未来可做的事情很多，比如说落地到各种智能硬件；跟智能家居、车载等各种场景结合实现跨场景联动，感觉未来五年很多东西值得期待。

第六，前沿科技的tiMing：这次的演示本身没有新的idea，无论是现在的语音助手和多模态交互，还是未来要落地的智能硬件和多场景联动，都没有啥新的概念，过去十年很多人做过DEMO。但是过去的体验都是半吊子，DEMO很酷、用起来反人类。本人做了十年，都已经绝望了，直到大模型的出现，才看到了一个全能的VPA的可能性。所以，前沿科技很多时候不在于vision，而在于实现vision的路径和节奏。

对于GPT-4o的发布，猎豹移动董事长兼CEO、猎户星空董事长傅盛今日早间同样发文点评称，“所有人工智能从业者都在熬夜等着大洋彼岸放核弹，但是没想到核弹没有放，掏出了一堆的摔炮。”

傅盛表示，这样的评论虽然是一句玩笑话，但比较让人失望的是这次OpenAI没有发布GPT 5.0，连GPT4.5也没有看到，反而是发布了GPT4o，就是把一系列的引擎给结合在一起，比如图片、文字、声音，这样你就不需要来回去切换了。

当然，傅盛也看到，OpenAI也发布了一系列的应用，通过一个桌面的app让你能够方便地把图片文档上传然后让大模型去帮你分析；此外，最重要的是OpenAI还发布了一个语音助手，由于使用了端到端大模型技术，所以这次语音助手的体验超越了SiRi，也远超于我们以前用过的所有的各种AI助手，不仅能够去感知情绪实时知道对话人的每一句话，并且在该插话的时候插话。

傅盛指出，一方面，我们觉得OpenAI发布应用恰恰说明了应用在人工智能领域大有可为，每一个创业者都应该去好好的做人工智能应用，大模型的能力当然会不断地迭代，但最终能够把大模型用好的还是应用，这次OpenAI的发布会，也说明了这一点。另一方面，如果不计成本的累参数，提高所谓的大模型能力，这条路肯定是容易遇到困难的，目前看起来GPT5可能还要难产一段时间。

chatGPT

近期文章

互联网资讯 · 2024年5月14日

CEO李志飞评GPT-4o：让人机交互有望重新做人

Need more than content? Move into the product flow.