互联网资讯 · 2024年3月12日

谷歌发布新AI模型Genie:利用一张图片创造互动虚拟世界

谷歌周一发布了一种新的AI模型Genie,可以接收文本提示、草图或想法,将其变成一个可以互动和玩耍的虚拟世界。

Genie拥有110亿个参数,由三部分组成,一个时空视频标记器、一个自回归动力学模型,以及一个简单且可扩展的潜在行动模型。

Genie通过了互联网上超过20万小时的2D游戏视频训练,目前还是一个研究预览版。它是在无监督和无标签视频的情况下进行训练的,能够学习各种角色的动作、控制和行动。

用户只要提供一段文本、一张草图,甚至一个想法,Genie就会生成一款2D游戏。Genie可以将任何图像转换成可互动的2D世界。

与Sora呈现出的高清晰度和高真实度相比,Genie似乎不那么在意画面真实性,而是将重点放在潜在动作预测上。

虽然距离全息甲板还有一段路要走,但有一天走进一个房间,用几句话创造一场完全互动的冒险是可能的。

Genie的上市日期尚未确定,以及是否会成为真正的产品还不清楚。但其用于内容生成的潜在技术和新方法,包括通向开放世界的未标记学习。

Genie带来的另一个重大突破是对真实世界物理的更深入理解,可以用于训练机器人更有效地导航环境,或完成训练中没有经历过的任务。

谷歌称,Genie开启了图/文生成交互世界的时代,还将成为实现通用AI代理的催化剂。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.