互联网技术 / 互联网资讯 / 营销 · 2022年7月19日

VidPress:百度研究院引领视频生产新方向

理性认识百度研究院“新品”:VidPress给出了视频生产新方向

拥抱短视频,可能是最近自媒体圈中最为流行的关键词。

单是微信视频号的灰度测试,就让媒体圈重度地震,原本隐藏在文字背后的“中年大叔”们勇敢出镜,试图抓住新生的机会窗口。和媒体朋友们日常聊天的话题,也不自觉地拐向了短视频,有人购置了专业的影像设备,有人连忙招聘熟悉视频剪辑的助理……

于是当百度研究院推出AI合成短视频平台VidPress的消息传出后,媒体圈里再次炸开了锅,排着队通过百度创作大脑进行测试申请,争先将自己刚刚写就的深度文转化为有声有色的短视频。毕竟VidPress的“果子”不可谓不诱人,只要输入一个图文内容的链接,就能自动生成相应的视频内容,极大地节约了成本和心力。

一番尝鲜后,有人给了VidPress高分评价,也有人对效果的不满意而诟病。鉴于两种或赞或骂的态度,这里分享一下个人对VidPress的思考,到底是理想又一次败给了现实,还是一开始就期许过高?

01 智能化内容生产的原理

VidPress诠释的视频生产方式,足以用“智能”一词来形容。

用户输入图文内容的链接后,VidPress将在9分钟的时间内完成视频素材的聚合、解说词生成、语音合成、音视频对齐和渲染导出等一连串的“骚操作”,平均每天可以生产500到1000条视频,妥妥秒杀了整条街的“剪刀手”。

这样的内容生产方式夸张吗?不妨先来看看“黑魔法”背后的技术原理。

理性认识百度研究院“新品”:VidPress给出了视频生产新方向

整个内容生产过程可以分为三个环节:

第一个环节是音频内容的生成,平台基于多种语言模型对图文内容的文字部分进行处理,然后自动生成一篇字数符合要求且适合视频呈现的解说词,再通过文字转音频服务(TTS)合成解说词语音;

同步进行的环节是视频内容的生成,平台会对图文内容进行语义理解,根据文章内容自动搜索相关素材,再通过计算机视觉技术对素材进行分析和理解,然后精选出合适的素材进行智能剪辑合成;

最后一个环节是音视频的对齐,这就涉及到百度的第二代时间轴对齐算法,选取文本中的兴趣点,再将视频片段与兴趣点的相关度进行打分,优质的视频片段将优先放入时间轴,最终进行渲染输出。

对于熟悉百度技术体系或产品体系的朋友来说,恐怕不会惊讶VidPress的存在逻辑。单是百度大脑已经对外开放的技能中,诸如自然语言理解、语音合成、计算机视觉相关的技能就占了不小的比重。聚焦到产品上,小度智能音箱的语音问答、动态播报、人脸识别等等,都不难在VidPress找到相似的技术。

只是短视频内容的生产从来都不是纯粹的技术工作,素材、创意、选题等都影响着最后的视频质量。VidPress的价值在于利用算法和模型降低了素材搜集、整理、匹配、剪辑的时间成本,与当下大多数落地应用的人工智能产品相似,尚未实现取代人工甚至完胜人工的智能化程度。

也就是说,现阶段的VidPress还只是辅助人工合成视频,降低了短视频剪辑的门槛和成本,本质上是为内容生产提供了新的思路。

02 视频合成中的制约因素

有些遗憾的是,不少媒体朋友看到新闻后对VidPress进行了测试,然后出现了一些负面的过度解读。

为什么会出现视频合成效果不尽如意的现象?还是要回到视频内容生成的环节。就技术层面来说,素材的智能识别、匹配、剪辑等过程已经没有太大的技术瓶颈,问题恰恰出在了内容素材的广度上。

毕竟现阶段的人工智能远未达到自主生产视频内容的程度,VidPress也需要对网上的内容进行搜索匹配,扮演了内容“搬运工”的角色。对应的一幕就是:在科技、娱乐、军事等内容素材丰富的领域,VidPress的表现不乏可圈可点之处,也不难看到一些精彩的视频案例;在一些新闻素材比较少的冷门领域,合成视频的效果也就打了折扣。

举两个通俗易懂的例子。

倘若你上传的是娱乐圈和某明星相关的内容,不难在网上搜罗出丰富的素材,毕竟可以找到海量的电影、电视剧、综艺等资源,VidPress可以在人脸识别算法、时间轴对齐算法的基础上,对素材内容进行精准识别、匹配、合成,内容丰富度和流畅度上恐怕不输于专业的视频剪辑团队。

如果图文内容属于情感、公益、社会相关的冷门内容,话题本身就比较宽泛,其中还有较大比重的敏感内容,可以使用的内容素材也就相对有限,导致平台可以聚合的内容素材数量偏低,即便技术和算法进一步优化,也难逃“巧妇难为无米之炊”的困境。

归根结底,内容素材的丰富度才是VidPress场景应用时的制约因素。

同时需要思考的恰恰是我们对内容生产的态度,VidPress的基本价值在于工具,提供了一种有别于传统人工的视频合成思路,降低了视频内容生产的难度值。可对于媒体人来说,仍然需要躬身打磨内容输出有价值的观点,继而利用VidPress实现价值的最大化,毕竟视频只是传播的载体,优质内容永远是话语权的关键。

或许对VidPress也是一种启示,经过了前期的试错后,还需要对产品的定位进行调整,比如在定制化与垂直品类上增加力度,在适用场景上进行选择,尽可能避开小众内容在素材上的限制,打造通用的解决方案。

03 未来可能的产品方向

站在百度的立场上,在短视频的风口期推出AI合成短视频平台,恐怕不是为了秀技术吸引眼球。

从图文到短视频再到直播,内容的传播方式越来越多元化,但在传播载体不断进化的时候,内容的生产方式似乎有些陈旧。从博客时代到公众号时代,从长视频时代到短视频时代,内容的表达越来越个性化,可内容生产一直是“笨拙”的人工。

内容传播载体的进化制造了一个又一个风口,当内容创作方式同步进化时,却可能改变一个时代,所能创造的想象空间同样不可小觑。截止到目前,VidPress还处于小批量免费试用的阶段,与百度内部人士进行沟通后发现,等待VidPress可能会有工具和平台两种产品方向。

从工具的方向来看,VidPress大概率会以SaaS服务的形态存在,可以在百度智能云上部署运营,也可以进行私有化部署。前一种可以服务大部分内容创作者,提供视频快速剪辑合成的线上工具,并且可以与内容版权方进行跨界合作,为创作者提供一站式的视频内容生产服务;后一种则是将能力赋予专业化的内容团队,以人工智能的技术优势帮助创作团队提升效率、降低成本。

从平台的方向上看,VidPress将在现有工具属性的基础上,与百家号、好看视频、百度联盟等内容生态打通,形成视频内容生产、分发、变现的完整产业链。只是生态化布局的前提是解决内容版权的局限,当前VidPress还仅是邀请测试,并不涉及商业用途,正式开放后就需要百度提供免费的版权视频库,与一些第三方视频版权库合作,并设计出一套按需付费的商业模式。

当然,上述的种种可能只是猜测,最终的产品演化方向还要靠百度的产品经理们给出回答。但这样的产品出现,对媒体的影响要远大于某个内容平台的崛起,我们不仅要思考下一波流量在哪里,还需要深入思索自身的核心竞争力在哪里,如何与人工智能进行分工协同,在未来的内容生态中准确找到自身的定位。

几乎可以笃定,传统纯

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册