互联网资讯 / 人工智能 · 2024年4月5日 0

南洋理工大学、港中大研究:对话方式实现人脸编辑

来自南洋理工大学、香港中文大学的研究者提出了一个交互式人脸编辑框架 Talk-to-EdIT,可以通过用户和系统之间的对话进行细粒度的属性操作。此外,该研究还创建了一个视觉语言人脸编辑数据集 CelebA-Dialog,用来促进大规模研究。

用户通过和系统的对话完成人脸编辑:

对人脸的各个特征进行编辑:

编辑各位帅哥美女(用到了 GAN inveRsion):

这项研究来自南洋理工大学、香港中文大学提出的一个交互式人脸编辑框架 Talk-to-EdIT,可以通过用户和系统之间的对话进行细粒度的属性操作。此外,该研究还创建了一个视觉语言人脸编辑数据集 CelebA-Dialog,用来促进大规模研究。

该研究提出的Talk-to-EdIT 的 pIPeline 如下图所示:

该研究用 SEMantic Field 来实现对人脸特征连续且高细粒度可控的编辑。对话功能则由 Language EncodeR 和 Talk 模块来实现。接下来解释各个模块的工作原理和效果。

SEMantic Field 具有两个特性:1) 对同一个人来说,不断改变某一个属性,需要的 “最佳前进方向” 是不断变化的。2)在编辑同一个属性时,对于不同人,对应的 “最佳前进方向” 也是不同的。该研究用一个神经网络来模拟 SEMantic Field,用如上图 (a) 所示的方法训练 SEMantic Field。更多实现细节请参考论文和代码。

如下表,实验结果表明,相对于用 “走直线” 假设的 baselines,该研究方法可以在人脸编辑的过程中更好的保留这个人的身份特征,并且在编辑某一个语义特征时减少对其他无关语义特征的改变。

如下图所示,对比很明显:

为了给用户提供更便捷直观的交互方式,该研究使用对话的方式让用户实现编辑。Talk-to-EdIT 用一个基于 LSTM 的 Language EncodeR 来理解用户的编辑要求,并将编码后的编辑要求传递给 SEMantic Field 从而指导编辑。Talk 模块可以在每轮编辑后向用户确认细粒度的编辑程度,比如向用户确认现在的笑容是否刚好合适,是否需要再多一档。Talk 模块也可以为用户提供其他编辑建议,比如系统发现用户从未尝试过编辑眼镜这个特征,于是询问用户是否想试一试给照片加个眼镜。

基于 CelebA 数据集,该研究为研究社区提供了 CelebA-Dialog 数据集:

研究提供了每张图片的高细粒度特征标注。如上图所示,根据笑容的灿烂程度,「笑容」这个语义特征被分为 6 档。CelebA-Dialog 精确地标注了每张图片中的「笑」 属于 6 个等级中的哪一个。

该研究提供了丰富的的自然语言描述,包括每张图片各个语义特征的高细粒度自然语言说明 (image captions),以及一句图片编辑的用户要求(User Request)。

CelebA-Dialog 可以为多种任务提供监督,例如高细粒度人脸特征识别,基于自然语言的人脸生成和编辑等。

在 Talk-to-EdIT 这个工作中,该研究利用 CelebA-Dialog 的高细粒度特征标注训练了一个高细粒度到人脸特征预测器,从而为 SEMantic Field 的训练提供高细粒度的监督。

总结

该研究提出了一个基于对话的、高细粒度的人脸编辑系统: Talk-to-EdIT。

该研究提出了 SEMantic Field,即在 GAN 隐空间中学习一个语义场,通过在隐空间中沿着场线「行走」,从而实现连续且细粒的人脸特征编辑。

该研究为研究社区贡献了一个大规模的数据集 CelebA-Dialog。并相信它可以很好地帮助到未来高细粒度人脸编辑的任务以及自然语言驱动的视觉任务。

Talk-to-EdIT 更多优秀表现: