选自arXiv
机器之心编译
参与:魔王、小舟
给出一张低分辨率图像,你可以用它做什么,用机器学习方法将它尽量恢复原貌?除此之外呢?近日,谷歌 David Berthelot、Peyman Milanfar,以及 Goodfellow 提出了一种名为 LAG 的生成器,可以基于一张低分辨率图像生成一组合理的高分辨率图像。
生成逼真图像是一件困难的任务,近来研究人员提出了很多处理该任务的方式。如果我们把这项任务限制在生成特定类别的图像,任务就会简单许多。也就是说,不用基于自然图像流形生成任意图像作为样本,而是从自然图像的特定「子空间」内采样图像,而这一过程由来自相同子空间的低分辨率图像指引。
最近谷歌发表了一项研究,作者为谷歌研究院 David Berthelot、Peyman Milanfar,以及前谷歌大脑科学家、现苹果机器学习特殊项目组负责人 Ian Goodfellow。
论文链接:https://arxiv.org/pdf/2003.02365.pdf
该研究试图解决的问题与单张图像超分辨率问题接近,但又有区别。图像超分辨率问题是指从低分辨率(LR)图像中恢复高分辨率(HR)图像的过程,而该研究目的不在于此,它试图使用输入图像作为指引,生成一组合理的高分辨率图像。
具体而言,该生成采样框架仅使用输入(大概率是极低分辨率的图像)来指向网络应生成的样本类别。而且,该算法的输出不只是与输入相关的单张图像,而是基于自然图像流形采样得到的相关图像集合。
LAG 方法仅在对抗潜在空间中使用感知损失进行学习,无需像素损失。
那么 LAG 效果如何呢?下图展示了该方法在人脸、卧室和教堂这三个类别上的图像生成效果:
研究贡献
LAG 方法旨在解决现有方法的基本缺陷,并做出了以下贡献:
将输入图像建模为一组可能的图像,而不是单张图像,即建模了(低分辨率)输入图像的流形;
学习单个感知潜在空间,来描述预测和真值之间的距离;
分析条件 GAN(conditional GAN)和 LAG 之间的关系。
LAG 方法
给定一个低分辨率的输入图像 y,该研究希望预测出可能的高分辨率图像的感知中心 x。该研究提出将可能的高分辨率图像建模为随机向量 z(z ∈ R^n, z N (0, 1))。在该模型中,(y,z) 唯一地映射到一张高分辨率图像 x_z。该研究假设高分辨率图像 x 是在 z=0 的正态分布的中心点获得的。
训练所用的函数需要 (y,z) 来预测高分辨率图像 x_z。该研究采用 GAN 术语,将此函数 G 称为生成器:
该研究设计了 critic 函数,用于判断高分辨率图像 x 是否和低分辨率图像 y 相对应。该研究提出将 critic 函数 C 分解为两个函数:
从图像到潜在空间 p 的投影 P;
从该潜在空间到 R 的映射 F。
研究者将 p 称为「感知潜在空间」。将投影函数 P 定义为:
由 φ 和 ψ 参数化的 critic C:
是 F 和 P 的组成部分:
函数 G、P 和 F 都是用神经网络实现的。
LAG 实现细节:损失、条件和架构
该研究使用具有梯度惩罚(gradient penalty)的 Wasserstein GAN 损失。值得注意的是,使用 relativistic GAN 和谱归一化卷积也能得到不错的结果。不过,该研究没有穷尽所有可能的 GAN 损失选择(不在该论文研究范围内)。
研究者通过向 critic 提供低分辨率输入与真值的绝对差异来简化 critic 任务。即,计算
其中 x_z = G(y, z) 是生成的样本,H : R^x
→ R^y 是缩放算子,r 是颜色分辨率。缩放算子为高分辨率图像生成对应的低分辨率图像。研究者将缩放算子的输出四舍五入到最接近的颜色分辨率,在该案例中 r = 2/255。这种做法是为了避免网络不稳定。为了允许通过 rounding 操作进行梯度传播,该研究使用了 Hinton 的直通估计器(straight through estimator)[7]。
假设 stop gradient operation 为 sg,则直通估计器为:
这里,研究者并没有提倡某一个特定的神经网络架构,因为有很多潜在可用的实现。更新更好的架构层出不穷,LAG 应该与其他架构相适应。在实践中,研究者决定使用类似 EDSR 的残差网络。对于 critic,该研究使用了几乎一样的架构,但顺序是相反的。
该架构按照 [9, 19] 提出的方法训练得到。关于架构和训练细节,以及 TensorFlow 代码,参见 GitHub 项目。
LAG 的效果:生成逼真的图像合集
LAG 方法的主要优势在于不止生成一张图像,而是基于一张低分辨率输入图像生成一组合理的图像。也就是说,建模可能图像的集合,并预测位于其中心的图像,还能够基于 z N (0, 1) 的分布生成样本。
该研究用三个类别说明 LAG 方法的能力:人脸、教堂和卧室,还展示了该方法的跨类别生成图像能力。
镜像图像
在该实验中,研究者试图观察 LAG 网络跨类别生成图像的性能,即考虑给定图像及其镜像图像。
噪声和随机输入