2024年开年,科技圈没有什么比Sora的出现更让人兴奋。如同ChatGPT在2023年初带来的LLM创业潮,Sora的发布也同样将视频生成模型推到了风口浪尖。科技巨头猛推产品,创业公司则乘风而上。3月13日,AI视频大模型公司爱诗科技完成亿元级人民币A1轮融资;3月12日,生数科技完成数亿元A轮融资;3月1日,AI视频生成 SaaS服务商「布尔向量」完成近千万元融资…Sora首次践行了DIT架构,将过去各自独立的扩散模型和大模型融合在了一起,也将视频生成模型的历史翻开了新的篇章。毫无疑问,一场新的技术风暴正在到来。一夜之间,国内大大小小的视频生成大模型争抢中国版Sora的标签。为了探究这个问题的答案,「自象限」通过国内已有的视频生成产品进行实际体验,并结合公开信息、第三方检测机构数据等多个维度,对当下主流的视频生成模型进行了全面评估。我们将从产品设计、实测效果和行业分析三个角度,全面探究,究竟谁能成为中国版Sora?
DIT的创新,谁能复刻?Sora的风虽然才刚刚从大洋彼岸吹到了中国,但视频生成却不是什么新鲜的话题。在此之前,这个赛道已经经历了Runway的Gen-2、Pika1.0和谷歌VideoPoet的几波革命浪潮,终于来到了生成效果更好、时间更长、逻辑性更强、更稳定性的Sora时刻。梳理绘制出了国内视频大模型公司及产品的基本情况。在国外,谷歌、微软这类硅谷老钱很早就投入到了多模态视频生成的研究中。去年,谷歌发布了多模态大模型GeMini和VideoPoet视频大模型,让人从直观的效果层面看到了多模态生成视频的可能性。在国内,多模态技术路径方向上我们看到了更多的可能性,既有技术积累深厚的大厂百度,也有大模型独角兽公司智谱,还有像生数科技、智象未来一类以多模态大模型为目标的创业公司。扩散模型路线是文生视频的主流路线,在保证效果生成上发挥着重要的作用,所以即使是惊为天人的Sora在底层架构上也只是改造,而非全盘颠覆。无论国内外,在这条道路都最为拥挤,首先是一手打造和开源扩散模型的StaBIlITy AI公司,紧跟其后的是猛猛向前冲的Runway、Pika,然后才是OpenAI、Meta、英伟达这些巨头。腾讯、阿里、字节三个大厂在前期几乎包揽了视频生成领域的研究,时不时地抛出一个DEMO小小地惊艳一下。但真的谈到落地产品,还是创业公司明显更快一步,比如爱诗科技、MoRph studio、右脑科技等公司已经开始面向用户开放。被称之为Sora路线的DIT,全称为DiFFUSion TRansfoRMeR,本质是把训练大模型方法机制融入到了扩散模型之中,从Sora技术报告呈现的结果来看,大力出奇迹之下可能会产生世界物理模拟器的效果。如今,Sora的底层架构被扒了个遍,训练的组件和技术也在开源的路上,但这也并不意味着人手一个Sora指日可待,技术、数据、算力、训练规模都是一道道关卡。近期,Sora核心团队负责人在采访中透露:Sora目前还处于反馈获取阶段,还不是一个产品,短期内不会向公众开放。从技术路线上看,国内的爱诗科技是少数从一开始就坚持了DIT路线的企业,其创始人王长虎在公开采访中谈到,Sora的出现验证了爱诗视频生成大模型的方向正确性。正因如此,爱诗科技定下了3-6 个月赶超Sora的目标,抓住机会,奋起直追。产品实测,用户跑分在视频生成模型赛道,目前国内的创业公司大致可以分为两类。一类是以爱诗科技(PixVeRse)、生数科技(PixWeaveR)、 MoRph Studio和智象未来(Pixeling)为代表的自研基础大模型,聚焦通用场景的视频生成工具。另一类则包括右脑科技(Vega AI)、李白AI实验室(神采ProMeAI)、毛线球科技(6PenARt)、布尔向量(boolv.video)和MewXAI(艺映AI)。我们的测试和评比通过三个部分组成,分别是使用门槛,基础产品功能和内容生成能力。首先是使用门槛。我们测试的8款产品,都已经支持通过网站使用产品,也都可以免费试用。但其中,仅有爱诗科技的PixVeRse不限制免费试用次数,其他产品都有三到五次的试用限制,超过试用次数之后就需要开通会员或充值能量使用,价格从几元到几百元不等。除了PixVeRse之外,其他产品在付费之前基本都有功能限制,比如艺映AI和Pixeling只能生成2s、4s的视频,更长的视频则需要付费。具体情况如下图。其次是产品基础功能。我们测试的8款产品,除了神采ProMeal和6PenARt之外,都同时具备文生视频和图生视频的能力。而神采ProMeal和6PenARt只具备图生视频的能力,不具备直接文生视频的能力。除了这两家之外,其他厂家就比较成熟,但产品功能差异却比较大。大模型的技术水平决定视频生成的质量,而产品能力则决定了大模型是否能够被很好地利用,与应用场景相结合。对于视频生成产品而言,功能的丰富程度决定了用户上手的容易程度,对视频生成的掌控能力,并最终影响输出结果和用户体验。所以从产品的完善程度和功能完整度上,PixVeRse整体领先,智象未来的Pixeling排名第二,艺映AI第三,Vega AI第四。在视频生成时长方面,Sora目前能够生成60s的视频,但国内创业公司的视频生成大模型,时长大多集中在2s~4s左右。依据提示词的内容表现能力,Sora发布时,输出过这样一段视频,其提示词是:美丽,白雪皑皑的东京街道很繁华。几个人在附近的小摊上享受着美丽的雪天并购物。美丽的樱花花瓣和雪花在风中飞舞。依据这段提示词,我们也分别使用爱诗科技的PixVeRse、右脑科技的Vega AI、MewXAI和智象未来的Pixeling生成了同样一段视频。爱诗科技的PixVeRse生成的视频在运动平滑度、运动幅度、清晰度等方面具备使用价值。右脑科技的VegaAI生成的视频在人物脚步混乱和人物模糊等方面存在问题。艺映AI生成的视频在镜头运动和人物面部表情处理方面存在缺陷。智象科技的Pixeling生成的视频在语义理解和画面表现方面有待提升。MoRph Studio的视频生成存在细节模糊扭曲等问题。除此之外,布尔向量也没有被纳入到这次评比中。用生产力工具,形成数据飞轮。事实上,对比了国内科技巨头和创业公司到目前为止的落地产品后的情况我们会发现,大公司更慢,反而是创业公司的产品和用户规模跑地更快。李彦宏也曾经提到:大公司做小创新,小公司才能做大改变。而想要真正在激烈的角逐中突围,目前来看,除了技术路线选择和产品本身的能力外,产品的使用场景、用户体验、行业应用等等综合维度,仍然是视频生成模型比拼的关键。产品使用场景方面,如前文所言,一类公司在埋头做新工具而另一类公司则将技术嵌入在某些成熟的产品中,这是两条完全不同的路线。对于工具类的产品,产品力的一个核心体现在于:能否成为生产力工具。让我们简单回顾一下Midjourney的发展历程就会发现,MidjouRney V5版本是文生图历史上的一个关键临界点,无论是从效果、准确性和速度等多方面的因素来看,V5正式从玩具蜕变成了生产力工具,而这一次产品能力的突破,带来的是用户大规模涌入,数据飞轮开始转动,效果日新月异。对比V5时刻我们发现,视频生成模型也即将迎来奇点。通过真实的测评我们发现,PixVeRse生成的视频在主体一致性、运动平滑度、运动幅度、清晰度等方面都更具备使用价值。在生产力工具的前提下,也分为两条产品路线,一类是如Adobe公司践行的走专业工具的路线,让专业的人更专业,另一类则是如WoRd一般,让普通人也能成为生产力。在这个问题上,Pika创始人郭文景在采访时表示Pika并不是电影制作工具,而是为日常消费打造的产品。PixVeRse的思路则更加明确,相比于Pika分层订阅的商业模式,PixVeRse在用户量和视频效果都处于全球第一梯队的前提下,仍在持续向世界各地免费开放,这是目前其他视频生成产品都难以企及的。也正是由于用户友好的态度和领先的视频生成效果,让PixVeRse的飞轮先转了起来。根据第三方数据监测平台显示,目前PixVeRse的用户规模与Pika处于同等量级,其访问量也远超国内其他主流视频生成产品。通过调研我们发现,爱诗科技还积极在国内外赞助/举办各类AI大赛,推动技术加快落地的同时,也在加速实现技术普惠。这个过程中,也有越来越多的用户感受到其产品PixVeRse的优势。除此之外,爱诗科技的用户生态做得非常突出,X上每天都会涌现大量使用PixVeRse创作的视频内容,覆盖英语、汉语、日语、西班牙语等多地区。这是其它国内品牌完全不具备的优势,也一定程度上反映了市场的选择。自象限认为,免费并不意味着放弃商业化,而是在产品打磨的初期,通过这样的方式获得真实的用户使用体验和用户生成后的高质量视频数据,再反哺给视频生成模型,将迭代的速度加快,形成数据-训练的飞轮。综合来看,目前国内整个视频生成模型的技术仍然在效仿国外,但以爱诗科技为首的创业公司已经找到了自己的发展节奏和模式,正通过产品设计、用户规模、运营策略等综合能力进行全面赶超。相比之下,Sora目前并未开放,能否承受住大规模用户同时在线尚未可知,能否能每次都做到准确、一致的1分钟视频生成仍有待检验。所以,并不一定非要找到中国版SoRa,以爱诗科技为代表的中国视频大模型公司,已经走出了新的、独立的上升曲线。文中配图来源于网络。