论文阅读:Bringing Old Photos Back to Life

本篇文章来自CVPR2020,名字是Bringing Old Photos Back to Life,主要做对老照片的恢复工作。

工作背景

老照片中往往包含多种瑕疵,且不同年代的照片由于摄影技术的不同,其畸变类型有着显著的差异。这使得在合成数据集上训练得到的模型难以适应于实际老照片的修复。与常见图片修复依赖配对监督信号不同,作者将老照片修复问题定义为在三个图片域之间的转换问题:实际待修复的老照片X、合成图像R以及无瑕疵高质量目标域图片Y分别视为三个图片域,我们希望学习得到X-Z的映射,如下图1,中合成图片与目标域图片形成配对关系。

1-三元域图像转换框架
若直接利用合成数据集以及目标域图片的配对关系,训练得到的模型难以泛化到真实老照片的处理,于是作者提出,将老照片与合成照片映射到同一个隐空间中去(Z_X ≈Z_R),之后通过学习隐空间映射mapping T,将畸变图片映射到目标域图片的隐空间Z_Y。该三元域图片转换框架对我们真实照片修复具有若干优势。首先,合成图片视觉上与真实老照片较为接近,二者的分布有着一定重叠,因而我们可以较容易地将它们映射到同一隐空间,在共有隐空间做图像修复,可以大大提高修复网络对于真实图片的泛化能力。其次,相较于CycleGAN等无监督翻译方法,我们的半监督学习图片修复充分利用了合成数据集的配对监督,从而实现对真实老照片的高质量修复。

核心方法

采用如图2所示的网络结构实现三元域图像转换。
具体来说,作者提出用两个变分自编码器(VAE)来分别得到两个隐空间 Z_X(≈Z_R)和Z_Y。第一个自编码器(VAE1)学习重建真实老图片与合成图片,并在中间用一个对抗学习的判别网络将两种输入的隐空间对齐到同一空间。这里我们采用变分编码器而不是普通的自编码器,这是因为变分编码器假设隐空间满足高斯先验(Gaussian prior),因而图片的隐空间编码更为紧凑,两种输入域的分布更容易被拉近。

类似的,我们用第二个自编码器 VAE2 得到高质量目标图片的隐空间编码。之后,我们固定两个 VAE 的编解码器,利用合成图片与目标图片的显式配对关系(标识为红色框),学习一个额外的隐空间映射(蓝色虚线),以实现对图片的修复。


2-老照片修复网络框架

此外,我们注意到老照片的瑕疵可以归类为局部损伤以及广泛性损伤。局部损伤有照片破损、污渍、划痕、褶皱等等,往往照片含有内容上的损坏,需要网络利用全局语义信息来实现修复;广泛性损伤指图片模糊、胶片噪声、颜色泛黄等整张照片均匀程度受到影响,修复仅需图片局部信息。
因而,我们的隐空间修复网络采用局部-全局视野融合,其中全局支路采用 nonlocal 模块大大增强处理视野。我们对局部破损图片建立了数据集,训练网络预测破损区域,该破损区域显式的送入 nonlocal 模块,并设置模块感受野为非破损区域(论文中称为 partial nonlocal 模块)。

至此,网络可以像修复合成图片一样,高质量的复原实际老照片。在此方法中,我们另外抠出照片中人脸部分,在人脸数据集上训练网络进一步优化人脸的细节。

我们将该方法和先前方法在实际照片上进行了对比。如图3所示,我们的方法达到了最真实、自然、清晰的修复结果。


3-实验修复结果

4-与不同种base-model的对比

你可能感兴趣的:(论文阅读:Bringing Old Photos Back to Life)