互联网资讯 / 人工智能 · 2024年5月21日

山姆-奥特曼发出怒火,GPT-4o成为Gemini的焦点

这些天的硅谷,乱成了一锅粥。

OpenAI CEO山姆-奥特曼直接在社交平台公开嘲讽谷歌的审美过于差劲,他表示:我努力不去过多思考我们的竞争对手,但我无法不去思考OpenAI和谷歌之间的美学差异。

下面附着的两张发布会现场图,左边是OpenAI,右边是谷歌。言下之意,就是OpenAI干净明了,极具科技感;而谷歌则离人群非常远,十分过时。

山姆-奥特曼怒喷谷歌,GPT-4o抢了Gemini风头

山姆-奥特曼如此气急败坏,还是因为在上周,OpenAI和谷歌同时发布AI新品,双方打的你来我往:你说GPT-4o全球最先进,我说Gemini家族能覆盖全生态全路径。

两家硅谷巨头的直接对抗,把科技竞赛的强度拉满,就连CEO本人都坐不住了。

谷歌AI全家桶上线

山姆-奥特曼嘲讽谷歌并不是无的放矢,这场谷歌I/O大会在观看性上,确实差强人意。

首先是时间太长,谷歌I/O大会足足有接近两个小时,主持人连续提起了121次AI字眼,甚至有观众在社交平台抱怨自己都快睡着了。

然后就是产品太多,比起OpenAI仅有GPT-4o一款新品,谷歌这次则推出了十余种Gemini大模型的升级及新品,可以说是“AI全家桶”。

山姆-奥特曼怒喷谷歌,GPT-4o抢了Gemini风头

最令人印象深刻的两项功能,是AI搜索Google SeaRch和AI助理project Astra。

首先是Google SeaRch,搜索作为谷歌起家的根本,这些年遭受到了微软的重创。微软的BIng已经借助ChatGPT,给传统搜索引擎带来了“亿点点”AI降维打击。

甚至就连OpenAI也在盛传将推出AI搜索类产品,来抢占Google搜索市场。

压力之下,谷歌推出Google SeaRch来稳定自家护城河,下定决心重塑搜索体验。

据演示视频来看,Google SeaRch最核心的功能,就是搜索摘要功能AI OVeRview。

所谓的“搜索摘要功能”,就是谷歌之前提出来的“搜索生成式体验(SGE)”。

用户在搜索框内键入文本,直接在最上方跳出AI帮忙整理的信息摘要。其中包含用自然语言对搜索结果的总结和概括,以及推荐的链接。

AI OVeRview还内置了“多步推理功能Multi-Step reasoning”、“计划功能planning in SeaRch”、“视频提问Ask WITh Video”。

另外一个发布会亮点,就是谷歌推出的AI助理project Astra。

project Astra就是一个完全对标GPT-4o的产品,产品形态和使用逻辑基本和ChatGPT无二。用户可以和它实时对话、视频聊天。

并且,和GPT-4o一样,project Astra也提供文生图、文生视频两项功能。只不过不叫DALL·E和SoRa,而是叫做imagen 3和Veo。

唯一有点不一样的,就是project AstRa提供了音乐生成模型MUSic AI Sandbox。

用户可以上传一小段音乐DEMO,MUSic AI Sandbox能在此基础上拓展延长。用户还可以输入提示词,进一步调整音乐风格,进行乐曲的二度创作。

总之,用一句话来概括谷歌AI全家桶,就是:东西很多,精品很少。

我们能在一系列AI新产品里,不断看到ChatGPT的影子,但单纯是在GPT-4o做好的框架里缝缝补补,升级一下算力,换个新框架。

能给用户带来震撼感的产品呢?

依然没有看到。

越来越像人类的GPT-4o

比起谷歌的多到凌乱,OpenAI则是简洁明了。

仅仅只有半个多小时,全程由公司CTO和两位工程师fACE to fACE,以对话形式展示产品,非常具有电影感。

甚至CEO山姆-奥特曼都没有现身发布会,完全用产品力来震撼用户。

现场的演示嘉宾拿着手机摄像头,让GPT-4o识别自己的表情,来判断自己的情绪。

GPT-4o很快识别完成,说:你看起来很开心,带着灿烂的笑容,甚至有一丝兴奋,你能分享你快乐的来源吗?

演示嘉宾在纸上写了“i lOVe you”给GPT-4o,GPT-4o用带有一丝丝娇羞、热情四溢的语气快速回应着人类的“爱意”。

山姆-奥特曼怒喷谷歌,GPT-4o抢了Gemini风头

GPT-4o能感受到你的呼吸节奏、能“看出”你文字当中包含的情绪、甚至可以打断它的话,重新为话题增加新的语境,它也能作出完美回应……

这样的人工智能,让你想到了什么?

是的,一个完美恋人。

就像是2013年上映的好莱坞电影《HeR》,斯嘉丽配音的人工智能和人类谈起了恋爱。

这一幕,逐渐成为现实。谁会不喜欢一个热情洋溢、事事有回应、提供丰富情绪价值的伴侣呢?

哪怕它是AI。

GPT-4o给后来者谷歌一个下马威,也给出未来AI大模型的一个满分答案:不管是生成式AI大模型也好,聊天机器人也好,不用再去关心什么硬件什么参数,AI的最终方向就是越来越像人类。

OpenAI并没有过多描述自己的算力、自己的硬件升级,只是由首席技术官穆里·穆拉蒂表示,GPT-4o将提供与GPT-4同等水平的智能,但在文本、图像以及语音处理方面均取得了进一步提升,“GPT-4o可以综合利用语音、文本和视觉信息进行推理。”

现阶段的GPT-4o已经摆脱了对文本、图片或语音的束缚,它的识别能力进化到了“听觉”和“视觉”。

用“听”来捕捉情绪变化,比如能判断对方急促的呼吸方式不对;用“看”来识别你写在纸上的方程式数学问题,一步步教你解题步骤。

甚至它还可以通过手机摄像头,回答你“这个人穿什么牌子的衬衫?”

比起谷歌眼花缭乱、不知从哪下手的AI全家桶,GPT-4o已经领先到大气层了。

免费,但又不完全免费

GPT-4o除了在能力上,给了谷歌一个下马威外,OpenAI还放了大招:

穆里-穆拉蒂表示,GPT-4o将免费提供给所有用户使用,不但当下免费,甚至以后OpenAI做产品就是要免费优先,为的就是让更多的人能使用。

就连OpenAI CEO山姆奥特曼表示,新的GPT-4o是OpenAI有史以来最好的模型,它可供所有ChatGPT用户使用,无论是免费版本还是付费GPT-4版。

不得不说,当服务免费时,用户就是产品。

如果GPT-4o真的能彻底取消付费制度,那么OpenAI获得的数据量会超出想象。

可惜的是,OpenAI还是缺少“用免费改变世界”的魄力,背后还是有不少的猫腻。

首先,OpenA在官网公告上明确说明,免费用户在使用GPT-4o时,OpenAI做出了权限上的分级。

免费用户可以使用GPT-4o的分析数据、创建报表、处理照片、上传文件、使用记忆功能等,基本上GPT-4o涵盖了GPT4所有的付费功能。

但是免费用户会有消息数量的限制,PIUS用户的消息将是免费用户的5倍,TeaM和EnteRpRise用户限制将会更高。

每天能用多久?每天能发几条?GPT-4o并没有详细说明。

或许,我们可以参考OpenAI上一代GPT-4,限制每个用户每天的使用时间在3小时以内,并限制每天生成的信息数量不超过25条。

虽然说这一限制在一定程度上,提高了信息的质量和用户的注意力。但还是要感叹一句,互联网的免费,永远不是真免费。

哪怕到了AI时代,这个法则也同样适用。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.