人工智能 · 2024年2月17日 0

虚拟主播发展:从破圈到成熟的距离

虚拟主播产业链走向成熟,甚至成为元宇宙重要参与者,最终仍取决于技术——更智能、更类人的交互体验,能依赖的只有AI技术上的持续突破。

作者 | 刘珊珊

编辑 | 杨铭

“柳夜熙”是谁? 在2021年,虚拟主播IP“柳夜熙”可能是比张同学更火的视频人物:从今年10月31日到12月12日,“柳夜熙”仅仅发布3条视频,便在抖音涨粉超800万、点赞量超1760万,制造了虚拟主播难以复制的流量神话。

“柳夜熙”之前,虚拟主播或虚拟数字人就应用在了各种领域,并开始各种破圈。例如“洛天依”登上央视春晚,现身李佳琦直播间带货;A-SOUL、翎_LING推出单曲和MV,和KFC、Keep、奈雪的茶等品牌达成合作;小晴、晓央、小漾、小智等为代表的虚拟主持人,成为各大广电、传媒主持人,并会全程主持即将拉开帷幕的2022冬奥会。

此外,明星真人偶像、网红主播频繁翻车的当下,虚拟偶像被视为最好替代者——上述因素综合下,越来越多的内容创作者、技术厂商、IP运营商、投资人纷纷入局,催生虚拟主播成为2021年最火热赛道。

政策也添了一把火。今年10月,国家广播电视总局公布《广播电视和网络视听“十四五”科技发展规划》,明确指出将推动虚拟主播、动画手语广泛应用于新闻播报、天气预报、综艺科教等节目生产,提高制播效率和智能化水平。

与国内虚拟主播赛道火热相对的是,首个真正意义上的3D虚拟主播——绊爱(Kizuna AI)近日却在五周年直播中宣布,将于2022年2月26日举办最后一场个人演唱会,之后无限期停止活动,引发一片哗然,也让虚拟主播“参与性强、寿命长、周边产业多”等特点遭遇了疑问。

那么,对国内虚拟主播赛道而言,爆发拐点是否真正到来?又如何避免重蹈绊爱覆辙?甚至,它又能否如愿乘上大热元宇宙东风?

虚拟主播“破圈”三大关键 虚拟主播并不是什么新概念。早在上世纪80年代,其概念就开始在日本形成,初音未来、绊爱、辉夜月都是横扫全球二次元圈子的“顶流”VTuber,并最终在日本形成了一套标准化模式。

在国内,虚拟主播出现同样可以追溯到20年前,比如2003年央视少儿频道推出的虚拟主持人跳跳龙。经过20年试水后,目前国内虚拟主播按表现形象大概可以分两种主要类型:

第一种是2D真人虚拟形象,追求外在形象无限接近真人,目前在播报、主持行业应用广泛,比如科大讯飞虚拟主播小晴;第二种是2D或3D形象的二次元虚拟主播,以“二次元”漫画、影视剧、衍生品形象的虚拟IP打造和孵化为主,洛天依、柳夜熙都是其中典型代表。

对国内二次元虚拟主播行业而言,2019年前虽然也催生了洛天依等更具本土特色的角色VUP,但在市场竞争中长期被模式更为成熟的日本虚拟主播产业压得抬不起头,直到2020年后才迎来爆发式“破圈”。

从“极点商业”多方观察看,国内虚拟主播行业能在最近两年迎来爆发,既于5G新基建落地大环境有关,更和内容质量提升、大厂不遗余力推动、技术门槛降低等几方面有直接关系。

形象、个性迥异的PGC内容设计,是用户喜欢虚拟主播的关键。从内容设计看,国内此前多年大部分是亦步亦趋跟随日本,甚至细化到需要国内的虚拟主播会说日语——由于日本虚拟主播内容不少会在国内同步,且演绎功底普遍较强,还可以制作各种虚拟综艺节目,因此国内虚拟主播很多年都难以赢得竞争。

不过,目前国内虚拟主播在内容上有了一系列明显变化,无论是形象上的惟妙惟肖,还是和观众的互动方式,都更多样化、更接地气,也让国内虚拟主播行业从曾经日V当道,转变为国V崛起。

比如“柳夜熙”,身份设计为东方面孔、中国风妆容以及捉妖师,形象与当下国潮风尚契合,加上科幻感特效以及赛博朋克风后期色调,最终铸就“元宇宙+虚拟主播+美妆”概念下流量天花板。绊爱、洛天依等能爆红的原因,同样是因为拥有极高演绎水准。

内容质量提升,离不开众多头部互联网、科技公司的推动。如B站、科大讯飞、字节跳动、阿里、腾讯、爱奇艺等,过去两年都借助大厂本身运营渠道和技术积累,加大对虚拟主播行业的资源倾斜,在内容质量、应用场景上不断发力,持续扩大行业影响力。

不过,大厂在侧重点上各有不同。比如,B站主要是夯实自己国内最大的虚拟偶像社区地位——B站CEO陈睿就在12周年庆上提到,过去一年里共有超过32000名虚拟主播在B站开播,虚拟主播成为B站直播领域增长最快的品类。腾讯则通过系列化产业化开发运营,为自家虚拟主播IP“无限王者团”实现网剧、电影、动漫、游戏等多领域的全产业链开发。另外,腾讯还想打造虚拟演唱会平台。

字节跳动、阿里则共推虚拟主播直播电商解决方案——相比“柳夜熙”那样精心制作的视频内容,更多国内虚拟主播选择的是成本更低、互动感强、变现快的直播方式。

与上述大厂不同,作为人工智能企业,科大讯飞除了布局泛文娱赛道,还希望在播报新闻、智能客服、智能交互等TOB方面发挥更大作用——早在2018年5月CCTV13的特别报道《直播长江》中,康小辉完成了与记者现场对话、表演绕口令等多个任务。此后,小晴、晓璇、一峰等多名具有独立性格、声线、肢体语言的虚拟主播相继上线。

在加入更多AI智能功能后,虚拟主播应用场景还可以覆盖多个行业,比如在文旅、金融、服务、公共交通等领域,通过虚拟主播降低服务综合成本,提升客服服务效率和体验。根据相关数据,科大AI虚拟人方案,已为400多家媒体、文旅、教育培训行业提供播报、交互服务。

大厂积极入局虚拟主播,还有另外一个重要利好,那就是借助自身技术储备加持,解决从0到1的技术攻坚,降低虚拟主播技术上的门槛。

技术是虚拟主播行业发展重要推动力。科大讯飞有关人士表示,一个虚拟主播的生成涉及到语音合成、语音识别、语义理解、人脸识别、人类建模等多项技术,角色建立后还要经过大量调试,才能让虚拟人更接近真人,以满足不同场景需求。

过去多年,技术成本一直是行业难题。以单次成本来看,虚拟主播视觉设计方面所要用到的动作捕捉、表情捕捉、实时渲染等设备,少则数万多则数十万,几分钟视频成本则超过100万,对个人或者小型团队来说,几乎难以承担。

同时,2D真人虚拟主播相比二次元虚拟主播,需要更强的技术支撑,以此满足高时效性、高反应度的实时呈现,达到“以假乱真”画面效果——这也是目前绝大部分虚拟主播,都选择二次元领域,只有科大讯飞、百度、阿里等少部分科技企业,选择在2D真人虚拟主播方向发力主要原因。

大厂入局带来的改变很明显,依靠动捕、交互等AI技术的多年积累,为用户提供平台和工具,让虚拟主播技术成本、门槛明显降低,最终让虚拟主播实现了可快速批量生产IP,降本增效。

以科大讯飞为例,去年全球1024开发者节上,董事长刘庆峰透露科大讯飞5分钟就可以生成一个虚拟主播。今年全球1024开发者节发布业界首个虚拟人交互平台后,刘庆峰表示1分钟就可以定制一个虚拟主播。

从5分钟到1分钟定制1个虚拟主播,意味着企业、创业者、个人用户都可以通过虚拟人交互系统低门槛定制虚拟形象,从降低生产成本来说无疑是一个重大提升——背后,主要得益于科大讯飞在AI技术上的20多年沉淀,在语音识别、语义理解等多种AI技术上的领先,以及AI技术本身的不断创新、迭代升级。

从1到10,虚拟主播产业成熟挑战 随着虚拟主播逐渐破圈,B端品牌合作到C端流量变现的商业模式,最近两年也逐渐清晰,因此成为国内创业风口,出现了不少专门运营、营销虚拟主播的公司。

比如虚拟艺人厂牌VirtuaReal下属艺人七Nana7mi,今年双11售卖同款外套,当日成交额超过130万。这意味着,虚拟主播带来新的商业价值有很大可能性。

不过,迄今为止,“柳夜熙”、洛天依在国内都只有一个,更别说创造出像初音未来、绊爱这样在全球二次元爱好者有极高影响力的虚拟角色。而在TOB上的应用,大部分也只是停留在播报、主持等初级阶段。

相比日本早就形成标准化的成熟产业链,目前国内虚拟主播产业整体还在初级阶段,想从1到10走向成熟,在技术、内容、商业化、产业链上都还有很多挑战。

技术是虚拟主播最底层的逻辑,也是用户体验关键。尽管现在国内AI虚拟主播一般都能够自行学习,可以通过语音、文字反馈等方式和用户进行交互,但在如何更好凸显人设、性格等方面,比如对细节、生活化等特征的理解和打磨上,让虚拟主播拥有极强偶像效应,以及更强感染力、更交互,还有不少距离。

这方面技术门槛相当高。以科大讯飞虚拟人交互平台为例,从建立人物模型开始,要经过原画设定、模型建模、骨骼表情绑定等诸多复杂步骤。一句语音反馈,不只是将文本“翻译”为语音输出,还要通过算法生成人物五官微表情,