论文学习-Image Inpainting for Irregular Holes Using Partial Convolutions

论文题目: Image Inpainting for Irregular Holes Using Partial Convolutions
论文作者:Guilin Liu Fitsum A. Reda ( NVIDIA Corporation)
发表时间和期刊:2018

Abstract 摘要

1、现状:基于深度学习的修复损坏图像方法都是使用基于有效像素(平均值)替代masked hole的标准卷积网络或者卷积滤波器。
2、存在问题:现有方法会导致伪影,例如颜色差异或者模糊;通常使用后处理来解决,但是代价很高。
3、提出方法:部分卷积网络,卷积网络基于有效像素进行掩盖或者重整化。上一次自动为下一层自动生成和更新mask。

Introduction 介绍

1、图像修复可以用于图像编辑,去掉不想要的部分,并使用看似合理的图像填充。之前的深度学习方法聚焦在修复位于图像中心的矩形区域,同时依赖昂贵的后处理。作者提出了一种修复图像上不规则孔洞的模型,产生有语义上有意义的预测,可以和图像其他部分平稳的结合在一起,而不需要后处理。
2、后处理方法包括 [10,32,23,38]
3、关注矩形中心的方法包括 [22,36,10,38,8]
本文贡献:
1、提出了部分卷积和自动掩码更新。
2、达到了sota,并且证明了图像修复模型对不规则孔洞的有效性。
3、提出了新的数据集。

Related Work 相关工作

  1. 非学习的方法修复图像
    1、使用distance field(距离场)机制从相邻的像素传播appearance information到目标区域,适合处理狭窄的孔洞,较大的孔洞会出现过渡平滑或者伪影。
    2、Patch based methods,在当前图像中搜索相关补丁或者其他源图像来迭代更新,缺点是需要很大的计算量。
    PatchMatch提高了修复速度,但是还是无法用于实时应用并且无法进行语义感知的补丁选择。
  2. 深度学习的方法
    1、 使用ImageNet的平均像素初始化孔洞,然后使用卷积网络,这种方式通常需要进行后处理操作。
    Content Encoders 首先将中心有6464大小孔洞的128128图像嵌入到低维特征空间,然后解码特征到64*64的图像。
    Yang et al. 使用Content Encoders的结果作为输入进行后处理,使用非孔区域的纹理信息填充孔洞区域。
    Song et al. 提出了一种微调网络, 使用模糊的初始的孔洞填充结果作为输入,在特征空间上的最近的非孔洞区域作为补丁迭代替换。
    Li et al. [17] and Iizuka et al. 通过定义全局和本地的鉴别器延伸了Content Encoders, 然后 Iizuka et al. 使用泊松混合作为后处理。Yu et al. 使用基于上下文注意层驱动的微调网络替代了后处理。
    2、 其他不使用掩码占位符的深度学习方法
    Yeh et al. 为损坏图像在潜在空间寻找最接近的编码,然后用它来调节填充孔洞生成器的输出。
    Ulyanov et al. 进一步发现网络不需要外部数据集的训练,可以依靠生成网络本身的结构来完成被破坏的图像。但是,这种方法可能需要对每个图像使用不同的超参数集,并应用多次迭代来获得良好的结果。并且它们的方式无法使用跳跃连接(一种可以产生更多细节的方法)。
    3、作者提出的方法
    1、标准的卷积网络,会将编码阶段的孔洞的原始特征或者噪声传递给解码阶段。我们的工作不依赖孔洞区域的占位符,并且可以使用跳跃连接,而且可以一次前向传播通过。
    2、 我们的工作广泛地使用了掩码或重加权卷积运算,这允许我们只在有效的输入上条件输出。
    Harley et al. 最近使用这种方法,提出了一种带软注意掩码的语义分割方法。
    PixelCNN 使用它进行全图像的生成,调节下一个像素仅依赖前一个合成的像素。
    Uhrig et al. 提出了一种sparsity invariant CNNs网络,采用重加权卷积和最大池化的掩码更新机制实现深度补全。
    图像修复领域,Ren et al. 提出了shepard卷积层,在该层中,同一个核同时用于特征卷积和掩码卷积。掩码卷积同时作为重加权判别器和更新的掩码,由于核函数可能的负项,
    这无法保证在更新的过程中孔洞也更新。

论文学习-Image Inpainting for Irregular Holes Using Partial Convolutions_第1张图片

训练数据集

1、作者在三个数据集上进行了测试,ImageNet dataset [26], Places2 dataset [39] and CelebA-HQ,前两个数据集使用原始的训练、测试、验证划分方法, CelebA-HQ随机划分为27K训练集,3K测试集。
2、使用[9]中的参数初始化权重并使用adam进行优化;batchsize为6(16G V100 GPU)([9] Delving deep into rectifiers: Surpassing humanlevel performance on imagenet classification)
3、使用学习率0.0002对初始训练进行批处理归一化。然后,我们使用0.00005的学习率进行微调,并在网络的编码器部分冻结批处理归一化参数。我们在译码器中启用了批处理标准化。这不仅避免了不正确的均值和方差问题,而且帮助我们实现更快的收敛。ImageNet和Places2模型需要10天的训练,而CelebA-HQ只需3天。所有的微调都在一天内完成。

你可能感兴趣的:(CV)