互联网资讯 / 人工智能 · 2024年4月4日 0

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

看这一头蓬松的秀发,加上帅气的动作,你以为是在绿幕前拍大片?

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

这其实是AI拿来视频ʵʱ抠图后的效果。

没想到吧,实时视频抠图,现在能精细到每一根发丝。

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

换到alpha通道再看一眼,不用多说,德芙打钱吧(手动狗头)。

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

这就是来自字节跳动实习生小哥的最新研究:实时高分辨率视频抠图大法。

无需任何辅助输入,把视频丢给这个名为RVM的AI,它分分钟就能帮你把人像高精度抠出,将背景替换成可以任意二次加工的绿幕。

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

不信有这么丝滑?我们用线上DEMO亲自尝试了一波。

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

相比之下,现在在线会议软件里的抠图,一旦头发遮住脸,人就会消失&hellIP;&hellIP;

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

头发丝更是明显糊了。

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

难怪看得网友直言:

不敢想象你们把这只AI塞进手机里的样子。

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

目前,这篇论文已经入选WACV 2022。

你也可以上手一试

目前,RVM已经在GitHub上开源,并给出了两种试玩途径:

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

于是我们也赶紧上手试了试。

先来看看效果:

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

首先来点难度低的。

对于这种人物在画面中基本不移动的情况,RVM可以说是表现的非常好,和人工抠图几乎无差别。

现在,王冰冰进入动森都毫不违和了。

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

于是开脑洞,也变得简单了许多&hellIP;&hellIP;

咳咳,言归正传。人物动作幅度加大会怎样呢?

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

对于多人舞蹈视频而言,RVM的表现也很nice。

即便动来动去、头发乱甩,也没有影响它的抠图效果。

只有在人物出现遮挡的情况下,才会出现瑕疵。

对比前辈方法MODNet,确实有不小的进步。

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

不过我们也发现,如果视频的背景较暗,就会影响RVM的发挥。

比如在这种背景光线昏暗的情况下,抠图的效果就非常不尽人意了。

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

可以看到,博主老哥的头发完全糊了。

而且身体的边界线也不够清晰。

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

所以,如果你想自己拍视频试玩,就一定要选择光线充足的场景。

利用时间信息

那么这样的“魔法&Rdquo;,具体又是如何实现的?

照例,我们先来扒一扒论文~

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

实际上,有关视频抠图的算法如今已不鲜见,其中大多数采用的是将视频中的每一帧作为独立图像来实现抠图的方法。

不同与此,在这篇论文中,研究人员构建了一个循环架构,利用上了视频的时间信息,在时间一致性和抠图质量上取得了明显改进。

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

从上图中可以看出,RVM的网络架构包括3个部分:

特征提取编码器,用来提取单帧特征;

循环解码器,用于汇总时间信息;

深度引导滤波(DGF)模块,用于高分辨率上采样。

其中,循环机制的引入使得AI能够在连续的视频流中自我学习,从而了解到哪些信息需要保留,哪些信息可以遗忘掉。

具体而言,循环解码器采用了多尺度ConvGRU来聚合时间信息。其定义如下:

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

在这个编码器-解码器网络中,AI会完成对高分辨率视频的下采样,然后再使用DGF对结果进行上采样。

除此之外,研究人员还提出了一种新的训练策略:同时使用抠图和语义分割目标数据集来训练网络。

这样做到好处在于:

首先,人像抠图与人像分割任务密切相关,AI必须学会从语义上理解场景,才能在定位人物主体方面具备鲁棒性。

其次,现有的大部分抠图数据集只提供真实的alpha通道和前景信息,所以必须对背景图像进行合成。但前景和背景的光照往往不同,这就影响了合成的效果。语义分割数据集的引入可以有效防止过拟合。

最后,语义分割数据集拥有更为丰富的训练数据。

经过这一番调教之后,RVM和前辈们比起来,有怎样的改进?

从效果对比中就可以明显感受到了:

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

另外,与MODNet相比,RVM更轻更快。

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

从下面这张表格中可以看出,在1080p视频上RVM的处理速度是最快的,在512&tiMes;288上比BGMV2略慢,在4K视频上则比带FGF的MODNet慢一点。研究人员分析,这是因为RVM除了alpha通道外还预判了前景。

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

更直观的数据是,在英伟达GTX 1080Ti上,RVM能以76FPS的速度处理4K视频,以104FPS的速度处理HD视频。

这篇论文是一作林山川在字节跳动实习期间完成的。

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

他本科、硕士均毕业于华盛顿大学,曾先后在Adobe、FACEbook等大厂实习。

2021年3月-6月,林山川在字节跳动实习。8月刚刚入职微软。

事实上,林山川此前就曾凭借AI抠图大法拿下CVPR 2021最佳学生论文荣誉奖。

他以一作身份发表论文《Real-TiMe High-Resolution background Matting》,提出了background Matting V2方法。

字节实习生开发的AI实现了4K60帧视频实时抠图,王冰冰表现出色!

这一方法能够以30FPS的速度处理4K视频,以60FPS的速度处理HD视频。

值得一提的是,background Matting