迪士尼自研算法突破百万高清像素用AI换脸来拍电影

AI换脸又一次刷爆了朋友圈

最近云毕业正当时，各家科技公司顺势推出了自己的AI换脸技术，结果又被同学们玩坏了！

换脸这件事绝不能少了业界大佬们！

不得不说，好看是不分性别的，彦宏兄气质满分！

仔细来看，AI换脸技术近些年还是成熟不少，整体的面部贴合度、细节处理都有了明显的提升。近日，Deepfake领域再一次取得了重要突破。据了解，迪士尼公司公布了一项最新研究成果，声称其人脸交换技术可达到业内最高水平。

从效果图来看，果然一点挑不出毛病！

据了解，迪士尼研究室与苏黎世联邦理工学院合作基于GAN提出了一种新型算法，它可以自动实现图像/视频中的人脸交换，同时保证数百万级的高分辨率。

更值得关注的是，目前这项研究成果已初步计划用于好莱坞大片制作，据说因为它可以改善电影质量和后期制作成本。

走进好莱坞大片的Deepfake

人脸交换在电影行业并不罕见。在一些好莱坞大片经常会用到替身演员完成一些专业的、高难度动作。为了保证电影效果，后期制作会花费大量成本。然而常见的计算机图形合成技术，效果常常差强人意，甚至会翻新重拍。

这在时间和金钱方面都是非常大的成本消耗，因此，迪士尼公司特此联合苏黎世联邦理工学院开展了此项合作研究。

近日，迪士尼公司对完宣称，他们研究了一款新型人脸交换技术，可用于电影或电视剧制作。他们声称该技术可在人脸交换过程中产生高分辨率，逼真的图像/视频，非常适合大屏幕播放。

局部融合更考验换脸的技术难度。为了验证算法性能，研究人员他们没有对人脸的眼部、唇部等局部器官进行了融合，效果也是非常惊人。

基于图一，图二、三分别进行了唇部和眼部的局部人脸融合，可以看出局部融合度非常高，高清、自然，看不出一点破绽。同时它能够随着唇部抖动实时贴合，毫无跳脱感。而且研究人员证实，视频中的人脸交换一般比静态图像效果更好。

局部人脸交换在动态视频中的融合优势，这在电影场景中是非常必要的。

更值得关注的是它可以产生百万级像素的分辨率。不过，研究人员表示他们采用了一种渐进式的方法（Progressive Training）对源视频/图像进行预训练，算法可从中提取较高分辨率图像。下图可明显看到经训练的人脸像素远高于未经训练的结果。

研究人员介绍，基于高清分辨率和局部融合技术的新型算法最大限度地扩展了人脸交换在电影中的应用。除了替身演员的全脸交换外，如需要刻画一位年龄逐渐增长的任务或已经进入垂暮之年的老人，可以根据需要为角色添加细微皱纹、发型和体态。

另外，它可以与其他作品完成表演上的替换，当然这里可以对原视频的背景和光照进行特殊处理，以使他可以融入电影场景中。这也是区别于传统后期制作的一种新方法。

基于梳状模型的最新算法

那么这项AI换脸技术是如何实现的呢？我们先来看一组完整的换脸路径图：

人脸交换源的完整示意图

步骤1和2：对源图像进行面部识别、特征提取，以及标准化剪裁（1024x1024）;

步骤3：将图像输入通用编码器进行模型训练；

步骤4：将解码后输出的图像与需要匹配的目标进行多频带混合，最终得到人脸交换后的效果图。

其中通用编码器的训练模型是一个关键，这里研究人员采用的是一种渐进式梳状网络结构（Comb Model）面部交换主要是通过域转移的方法来实现。我们使用通用编码器将经预处理的图像嵌入共享的潜在空间中，然后使用与之对应的解码器将这些嵌入映射回像素空间中。通常域转移主要在这两个空间中进行切换，但在本文中，研究人员扩展了一种新的思路。

如我们图中看到的，经编码器处理的图像，被解码器分支到P个域中，研究人员将这种架构成为梳状模型。这里各个编码器就相当于梳状结构的“齿子”。

在这里，单个梳状模型可以处理多个源目标的人脸融合，而且与双向模型相比，它可以有效减少训练的时间，同时明显提高图像的保真度。

如前文所说，模型训练采用的是一种渐进式的方式。该过程通过对高分辨率图像进行下采样，得到低分辨率图像，然后在训练中再逐步输入高分辨率，逐渐扩展网络的容量，最终得带高保真图像。

不过，这里要注意的是，最终输出的图像分辨率会受到原始数据集图像分辨率的限制。如果数据集缺乏高分辨率，可以采用超分辨率的方式对图像进行预处理，不过最好采用特定于面部的SR训练方法。

除此之外，研究人员介绍，梳状模型和多频带的混合策略，还有助于保持融合背景的光线和对比度。

对比分析，优势明显

研究人员将渐进式梳状模型与目前三种开源的人脸技术，分别为Deepfake、DeepFaceLab和Nirkin et aI进行了对比研究。其中，Nirkin et aI采用三维可变模型，不需要预训练。后两者采用Y形自动编码器结构的实现。

本次试验对五组人脸进行了对比。前两列分别源图像和目标图像，需要进行AI融合，从之后的图像可以看，本次研究模型在细节融合、图像分辨率以及阴影处理上，要高于其他算法模型。

而且，它采用的多频带混合在消除伪影方面要明显优于泊松混合。DeepFakes和DeepFaceLab都的使用是泊松混合（Poisson）。

不过，研究也存在明显的局限性，比如显示无法对戴眼镜的人进行稳定的人脸交换，不是因为眼镜部分无法渲染，而是无法将脸部与周围图像混合。研究人员曾尝试调整输入源与之相匹配，但结果时好时坏。、

不过，研究人员也解释在实际应用或电影场景中，可能影响不大。