人工智能 · 2024年1月29日

搜狗-清华天工研究院推出ChoreoNet模型:数字人随声起舞

近日,搜狗分身技术团队联合清华大学天工智能计算研究院贾珈老师团队共同发表的数字人技术论文《ChoreoNet:基于舞蹈动作单元的音乐-舞蹈合成框架》被2020国际顶级盛会ACM Multimedia录用为长文。

搜狗-清华天工研究院提出ChoreoNet模型:让数字人闻声起舞

ACM Multimedia专注于推进多种媒体的研究与应用,涉及人工智能、计算视觉、数据科学、深度学习、人机交互等多个新兴领域,是中国计算机学会推荐的多媒体领域唯一A类国际学术会议,被认为是多媒体技术领域奥运级别的盛会。虽然鼓励来自全球的各类机构分享、交流最新研究成果,但该会议论文接受率很低,只有对日常生活和技术突破具有巨大影响潜力的研究项目才会被通过。

音乐和舞蹈是与人们生活密不可分且高度相关的两种艺术形式,近年来,“乐舞合成”也是业内高度关注的领域。不过,早期合成基于相似度检索进行,合成结果的多样性有限,而目前通行的方法是利用神经网络模型,将音乐特征映射到人体骨骼关键点,但由于人类骨架关键点的高度冗余和带噪特性,逐帧关键点预测非常困难,导致合成质量有限,成为困扰业内人士的一大“难关”。

搜狗分身技术团队与清华天工研究院贾珈老师团队在论文中提出了一个极具创造性的解决方案,该方案将人类编舞知识融合到乐舞合成框架中,设计多个舞蹈单元(CAU),并使用CAU序列预测模型,开发了一个像人类一样根据音乐编排舞蹈动作的舞蹈合成框架——ChoreoNet。通过实验验证和数据对比,相较于基线法,ChoreoNet性能更好,合成动作也更加自然逼真,无论是音乐匹配度、动作自然度还是其他方面,表现都更加优秀。

搜狗-清华天工研究院提出ChoreoNet模型:让数字人闻声起舞

此次,该论文被ACM Multimedia认可并录取为长文,不仅代表了搜狗AI分身技术在身体动作及姿态生成方面的突破,也从侧面印证了搜狗强大的AI技术实力和能够实现持续输出的创新能力。值得注意的是,搜狗是在业内率先选择通过音频来驱动身体动作作为研究课题的先行者。

在搜狗的AI战略版图中,“自然交互+知识计算”是核心方向,技术研究和推动技术向产品的快速转化均以此为基础和方向,而搜狗“分身”是其中关键和重要一环。

在2018年发布全球首个AI合成主播之后,搜狗分身持续研究并打造更加逼真自然的数字人能力,在2D/3D数字人领域构建了音画同步、逼真的面部表情唇生成及驱动能力。此外,如何能够让数字人更加自然并且富有表现力也是搜狗分身的重点研究方向,其中身体动作以及姿态的表达至关重要。搜狗在首代AI合成主播问世后不到3个月的时间,便成功推出与“坐播”截然不同的“站播”合成主播,今年5月推出的3D AI合成主播不止面部细节经得起高清镜头考验,更是实现了自如行走。本次与清华大学天工智能计算研究院的工作选择了音乐场景,重点研究如何提升身体动作生成及驱动的表现力和自然度,为AI数字人的技术探索开启了新方向。

人工智能是未来科技的风向标,而5G时代的到来又大大加速了这一进程。自2018年搜狗推出全球首个AI合成主播之后,能够与普通人的生活深度交融并广泛运用于各行各业的“AI分身”便深受关注,不少科技企业躬身入局。

搜狗从未停下突破的步伐,从2D到3D、“坐播”到“站播”、从支持单一语种到支持多语种、再到支持互动。目前搜狗分身技术已经在司法、传媒、会展、艺术、金融客服等多个场地落地,为新华社、央视、平安惠普、北京互联网法院等打造了多个AI合成主播、AI合成客服、AI虚拟法官等,也创造了雅妮、新小微、新小浩、新小萌等多个经典AI数字人形象。

AI为人赋能,这是搜狗人工智能的发展理念,也是搜狗分身技术的愿景。作为一项既能解决行业痛点,又能为用户创造价值,既能给社会带来变革、又能对科技产生影响,同时还能持续突破和进步的前沿技术,搜狗分身的未来,无疑具备更多的可能性、极大的想象空间。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.