引领了人工智能先河、却因为谨慎错过了这一波大模型先机的谷歌——正在变得大胆和开放,在产品和生态上迎头赶上。
北京时间 2 月 8 日 21 点,谷歌宣布了旗下最强大多模态模型 Gemini(包括最大最强的 UltRa、中间态的 Pro、最小且匹配端侧的 Nano)的最新进展,核心是要推动 Gemini 的大规模应用落地和商业化。具体进展如下:
1)谷歌测试版的聊天机器人 BaRd(已接入 Gemini Pro 模型)改名 Gemini;
2)推出 Gemini 的 Android 版app,并将 Gemini 的能力加入 iOS 的 Google app中,免费向公众开放;
3)在Android上,用户可以选择使用 Gemini 可以替代原来的 Google ASSistant,成为手机的默认语言助手;
4)在谷歌官方会员计划 Google One 中加入 Gemini Advanced 服务,多付 10 美元即可访问最强大的 Gemini UltRa 模型;
5)大模型能力很快将接入 Google WoRkspace(包括 Gmail、Docs、MEET 等应用)和 Google Cloud 中。
此次谷歌不仅直接推出了大模型面向 C 端的 app,同时将内部的多个产品线接入大模型,可以说向技术的公开化迈进了一大步。当问及为何选择推出面向公众的产品,谷歌产品管理高级总监、Gemini 体验官 Jack KRawczyk 对极客公园说,「我们谈论 Gemini,不仅仅是在谈(谷歌)最先进的技术,更是谈论一种生态系统的转变。」
KRawczyk 表示,这一转变背后,一方面是因为 Gemini 技术本身的强大——Gemini 从一开始就被创建为多模态大模型,它也是谷歌迄今最强大的模型,去年 12 月一经发布即引发全行业震撼。
另一方面则是因为,谷歌认为时机已到,「我们相信更多的人已经准备好了第一次与这项技术互动。按照我们目前引入的方式,预计许多人将首次使用生成性 AI。」KRawczyk 说。
在大模型对话产品席卷全球一年后,谷歌终于迈出了最关键的一步。
01 Gemini 推独立 app,
Google ASSistant 失业?
为了迎战 ChatGPT,谷歌于 2023 年 3 月推出聊天机器人 BaRd,但它的最初产品能力并不足够好、甚至在现场演示时回答出错。
因此,谷歌不断提升 BaRd 背后的模型水平,从最开始轻量级的 LAMDA 模型、升级到功能更强大的 PaLM 模型、再到最强的 Gemini 模型。去年 12 月 Gemini 发布后,BaRd 宣布将运行在 Gemini Pro 上,这是 BaRd 自推出以来最大的升级。
谷歌似乎对 Gemini 的模型能力非常满意——现在,它不仅直接将 BaRd 改名为了 Gemini,还决定为这款测试了长达一年的产品直接推出 app。
2 月 8 日 21 点,谷歌推出 Gemini 的 Android 版 app,并将 Gemini 的能力加入 iOS 的 Google app 中,免费向公众开放。用户能够在亚太地区以英语、日语和韩语访问它们,更多语言版本即将推出。
「我们从用户那里听说,他们希望在外出时更容易访问 Gemini。新的移动体验将我们最新的 AI 能力直接带到设备上,这样用户无论何时何地都能得到帮助。」KRawczyk 说。这也是很多大模型 C 端应用的使用场景,随时随地跟模型交互、获得服务。
不过,比 app 最关键的是,Android 用户可以用 Gemini 替代原来的 Google ASSistant,成为手机的默认语言助手。
使用方式是:当用户访问 Google 助手时,会收到一个选项,询问是否希望加入 Gemini 作为实验性的助手。如果同意,Gemini 就会成为用户手机上的默认助手。用户可以通过现有的 Google 助手接入点,比如电源按钮、甚至 Hi Google,来唤醒使用 Gemini。
这意味着,Gemini 将可以调用 Google 助手,帮助用户执行任务。比如打电话、发送消息、设置计时器、控制智能家居设备等等,更多功能还在研发过程中。
一整年来,各大模型厂商都在谈论个人助理(agent)的未来,即通过一个智能体、为用户自动调动所有的应用。而谷歌通过将 Gemini 融入谷歌助手,展现了这一智能助理的可能性。
KRawczyk 表示,在 Android 手机上,助手界面是最自然的发展愿景,所以才会把 Gemini 作为手机数字助手的一部分。「这是谷歌构建真正 AI 助手的第一步,再次强调,这是第一步,这是开始。」他说。
02 Gemini Advanced,
谷歌版的 GPT Plus
去年底发布 Gemini 时,谷歌就表示其中最强大的 UltRa 模型将通过 BaRd Advanced 提供,但尚无收费计划。
2 月,通过更名的 Gemini Advanced,UltRa 大模型正式对公众开放,不过,收费方案也随之而来。
想要接入谷歌的 UltRa 模型,用户需要订阅 19.99 美元每月的 Google One 的 AI PReMiuM 服务,比 ChatGPT 的 Plus 版本的订阅费用,小低 0.01 美元。
虽然价格看起来仿佛对标,但谷歌在收费上,充分利用了自己的生态优势。
Google One 服务并不是一项新服务,它在 2018 年已经推出,是谷歌的「全家桶」服务。使用 Google One 的人,可以享受多项 Google 服务,包括存储空间和解锁部分软件的高级功能。
如果类比于国内,相当于买了一个会员,同时可以解锁 iCloud 照片的存储功能,百度网盘的大容量空间,网易邮箱的高级功能,腾讯会议的付费功能等等——而谷歌的厉害之处在于,在全部这些领域,谷歌旗下的应用,都拥有十亿级别的用户,付费基础广大。
2024 年年初,谷歌刚刚宣布,Google One 目前已经有了 1 亿的订阅者。
在 Google 推出新的 AI PReMiuM 档位之前,Google One 原本有三个档位,每月 1.99 美元,每月 2.99 美元和每月 9.99 美元。新的 AI PReMiuM 档位,虽然看起来是 19.99 美元,其中将赠送 9.99 美元档位的全部 Google One 服务。
这相当于,如果一个用户原本已经付费 9.9 美元——可以解锁解锁 Google MEET(谷歌的在线会议平台)和 Google CalendaR(谷歌的协作日历)的高级功能,那么,这个用户很可能已经是一个深度使用谷歌各项平台的商务人士。这时候,只需要每月增加 10 美元,就可以使用谷歌最强的大模型了。
而谷歌为了勾住这些用户,还为他们量身定做了符合他们定位的功能,除了在专门的聊天窗口可以使用 UltRa 模型的能力,未来还能够在直接谷歌的邮箱,在线文档和在线会议中,使用大模型的能力。(从目前谷歌生产力智能助手 Duet AI 的功能演变而来)
UltRa 模型能力表现具体如何?
谷歌曾经表示,Gemini UltRa 在 32 个基准测试中拿下 30 个 SOTA(最先进水平),并且第一个在 MMLU 基准(大规模多任务语言理解基准)上达到人类专家水平。
此次发布中,谷歌官方进一步表示,Gemini Advanced 将具有更长的上下文窗口,能够完成更加复杂的逻辑推理能力,遵从语意更加复杂的指令,可以辅助编程,可以角色扮演,可以看图说话——在这个版本中,谷歌似乎并没有加入多少图片生成或者语音对话的多模态能力。
谷歌还在发布中表示:「在业界领先的聊天机器人盲测中,用户觉得 Gemini Advanced 是目前最受人欢迎的聊天机器人。」
由于大模型的评测目前还没有特别公允的横向比较标准,究竟是不是这样,恐怕要每一个用户自己去评判。谷歌放开了两个月的免费试用期,让大家自己来尝试 Gemini Advanced 是不是真的好用。
不过可以看出,此次谷歌推出的付费版,重要卖点似乎并不完全落在其大模型拥有「吊打一切」的能力,而是更强调与生态内应用的结合,用户能够更加无缝地在已有的 Google 应用中,方便地使用人工智能的能力。
比如写邮件,直接在邮件窗口下面,跟人工智能说一句看看怎么帮我回,显然比把邮件复制粘贴了放进另一个聊天机器人的对话窗口,再写 ProMpt 让机器人回复更为方便。而人工智能与在线会议等应用的结合,更是充满了很多提效空间。
值得注意的是,谷歌的人工智能团队是 TRansfoRMeR 架构的提出者,而在 2023 年,人工智能的最大风头,却更多地被微软和 OpenAI 抢走。
2023 年,谷歌在人工智能方面也动作频繁,但很难说受到了外界的多少认可。最新一季的财报公布之后,谷歌母公司 Alphabet 股票下跌约 5%。
The information 的 MaRtin PeeRs 分析道:目前大幅投入人工智能的科技公司,最后都需要证明自己的投入是否能够得到经济回报。微软从 AI 中已经收获到了回报,包括云业务增长 和 OFFice 产品的销量,可能也受到 AI 功能的推动。而谷歌的母公司 Alphabet,则没有表现出类似的收益。
「不过 Alphabet 和微软一样,有收益的潜力。」
2024 年开年,Alphabet 第一次宣布了 AI 收费产品,也许,现在正是能够验证 Alphabet 在 AI 产品上到底能不能收益的时候了。