TechWeb文/卞海川
微软对OpenAI的总投资已经超过130亿美元,OpenAI却把第一个桌面应用给了苹果MacOS。
在OpenAI春季发布会上,除了推出新旗舰模型“GPT-4o”之外,最大的亮点是这次活动中全程用iphone和MacBook Pro进行演示,同时还发布了Mac桌面版的ChatGPT。
最近,TechWeb也收到了ChatGPT苹果系统桌面版的更新推送,在使用了一段时间后我发现,桌面版并不是将网页版重新包装成桌面app那么简单,而是想改变用户与GPT之间的互动方式,从而将使用AI工具的习惯深深刻入用户的骨子里去。
我们来一起来简单上手体验一下。
设计界面
点开ChatGPT-Mac后,我们可以发现它基本和网页版相似,都是简单简约的设计方式,同样有三种模型可以选择。
左侧边栏显示的是历史对话记录。
当我们切换到最新版本的GPT-4o后,在界面的功能分布上,新增加了两项功能,分别是录音模块与对话模块。
GPT-4o模型可以支持文字、图像、或声音等不同模态的输入,并且可以实时联网查询你所需要的一些信息。
比网页版方便的是,你现在无论在哪个界面,都可以通过快捷键(默认option+空格)唤起聊天对话框,你可以选择上传照片,文件,甚至可以直接截图,还可以打开摄像头随时拍照。
我们这里以截图为例,比如我看到了一些有设计感的图标,你可以实时截图,发送给它,让他帮你分析一下这类图标的优势,甚至能让它帮你设计一个类似的。
发送完之后,他可以跳回桌面端加载它回答的问题。
另外一个让我喜欢的功能是窗口置顶功能,如果你需要长时间使用它,你可以将它随意拖拽放大或缩小窗口,固定到屏幕的任意位置,方便我们后续的对话或者上传文件。
虽然上述功能网页版都可以实现,但当产品真正植入你的电脑中,并且可以通过快捷键实时唤醒的时候,这个产品的体验就被进一步革新了,对于工作的效率提升是非常明显的。
OpenAI对该软件的使用频率是非常有信心的,它默认把软件设置在常驻应用栏中,与系统级的原生应用(邮件、备忘录、日历)、日常生产力应用(办公软件、浏览器)同级。
在如今的媒体报道上,我们经常能看到国内大模型屠榜的消息,甚至某项数据表现超越GPT,可是单从商业化这一小步来讲,OpenAI可能再一次领先行业,毕竟它优先抢占了我们电脑中的位置,从而不断提高未来自己的市场占有率。
目前,桌面版的体验优先像PlUS付费版用户推送,数周后普通用户也可以完成下载,Windos客户端也会在今年内发布,OpenAI的宏伟愿景是面向所有互联网用户的桌面,成为用户日后习以为常的默认应用。
ChatGPT4o桌面版的一些应用场景?
一个优秀的大模型不仅需要具备强大的语言生成和理解能力,更需要在实际应用场景中展现其价值。
这里我们以ChatGPT4o桌面版,聚焦内容创作、教育辅导、工作翻译三个场景来评测一下它带给用户的实际价值。
内容创作
在内容创作领域,它可以帮助用户生成高质量的文本内容,包括文章、报告、广告文案等。
TechWeb认为,ChatGPT4o桌面版带给用户的价值更多的是在提供丰富的创意和灵感,打破创意瓶颈。
比如这里我们是一位作家,想尝试新的文体风格,写一篇小说。我们可以给ChatGPT4o一些关键词,GPT就可以给我们提供非常多的思路。
这对创作者的时间提升是非常明显的,我们可以让大模型自动生成初稿,创作者专注于修改和润色工作。
除了文字的创作,GPT在代码生成的能力也是非常强的,我们从网上找一张打砖块的截图,上传给GPT-4o,让他写一个游戏代码,整个时长不到30秒。
利用该代码,我们在能运行Python的软件打开,游戏很快就出来了。
GPT在桌面端的提升主要是在实时调用方面,我们在日常网页浏览、文件阅读等环节,都可以通过快捷键进行唤醒,随时查询,实时输入内容,方便我们在浏览网页或者办公的时候随时交流。
教育辅导
大模型在教育领域的应用,特别是个性化教育辅导,展现了巨大的潜力。它是所有学科的老师,并且有着非常高的准确率。
GPT有了桌面版,我们可以边用电脑上网课,边截图,把自己没听懂的习题再发给GPT做记录,随时随地解析,非常方便。
另外一个比较有意思的功能是,你甚至可以让GPT帮你判作业,比如这样:
我们故意答错了几个答案,果然都被GPT都识别了出来,并且还会告诉你正确的运算顺序。
当然这个功能还是有些小瑕疵,比如在显示方式上还有一些小错误,但不影响最终的结果。
工作翻译
GPT-4o的发布,展示了可以毫秒级反应、识别人类情绪进行音视频交互等新能力。这就让我们想到了一个新的场景,也就是实时翻译。
在需要翻译的场景中,我们可以跟GPT说,现在我要你充当翻译官的角色,我说中文,你翻译成英文,我说英文,你翻译成中文,这样我就能和我的国外好朋友实时交流了。
在实测之后,我们发现不管是什么语言,他都可以轻松翻译,而且反应非常快,根据OpenAI发布在官网的最新博客文章,在GPT-4o之前,语音模式与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。
而现在,GPT-4o最快可以在 232 毫秒的时间内响应音频输入,平均响应时长320毫秒,与人类相似。
不过比较遗憾的是,当我们想让它在实时会议中参与并总结要点时,GPT好像还做不到,这个语音功能目前还并不完善,不过相信等未来视觉功能推送后,旁听会议并总结这个场景一定会实现。
写在最后
GPT-4o桌面版的发布,不仅展示了OpenAI在技术上的领先地位,更是其用户体验战略的一大步。
通过将AI工具无缝集成到用户的日常工作和生活中,OpenAI正逐步改变我们与技术互动的方式。这不仅提升了我们的工作效率,更为我们的创作和学习带来了前所未有的便利。
未来,随着GPT-4o的不断更新和完善,以及Windows客户端的推出,OpenAI的愿景是让每一位互联网用户都能轻松使用AI工具。无论是在内容创作、教育辅导,还是工作翻译等场景中,ChatGPT-4o都将成为我们不可或缺的助手,帮助我们更高效地完成各种任务。
这一次,OpenAI通过与苹果的合作,为我们带来了一款不仅仅是工具的应用,而是一个能够真正改变我们日常生活的创新产品。