《Free-Form Image Inpainting with Gated Convolution》阅读笔记

《Free-Form Image Inpainting with Gated Convolution》阅读笔记

    • 一、论文
    • 二、代码
    • 三、参考链接

一、论文

摘要: 我们提出了一种生成式图像修复系统,以使用自由形式的蒙版和引导修复图像。 该系统基于从数百万张图像中学习的门控卷积,无需额外的标记工作。 提出的门控卷积解决了将所有输入像素都视为有效像素的普通卷积的问题,通过为所有通道在所有层上每个空间位置的每个通道提供一种可学习的动态特征选择机制来概括部分卷积。 此外,由于自由形式的遮罩可能会出现在具有任何形状的图像中的任何位置,因此为单个矩形遮罩设计的全局和局部GAN都不适用。因此,我们还通过对密集图像斑块应用频谱归一化鉴别器,提出了一个基于斑块的GAN损失,称为SNPatchGAN。 SN-PatchGAN配置简单,训练快速稳定。 自动图像修复和用户指导的扩展结果表明,与以前的方法相比,我们的系统可产生更高质量和更灵活的结果。 我们的系统可帮助用户快速移除分散注意力的物体,修改图像布局,清除水印并编辑脸部
相关工作:

  1. 自动图像修复

已经提出了用于图像修复的多种方法。 传统上,基于补丁的[8,9]算法基于低级特征(例如RGB空间上的均方差特征)逐步扩展接近孔边界的像素,以搜索和粘贴最相似的图像补丁。 这些算法在静止的纹理区域上效果很好,但在非静止的图像上常常失败。 此外,Simakov等。 提出了双向相似性综合方法[36],以更好地捕获和总结非平稳视觉数据。 为了减少搜索过程中存储和计算的高成本,提出了基于树的存储加速结构[25]和随机算法[3]。 此外,通过匹配局部特征(例如图像梯度[2、5]和类似补丁的偏移统计信息[11]),可以改善修复效果。 近来,提出了基于深度学习的图像修复系统以直接预测掩模内的像素值。 这些模型的显着优势是能够学习针对不同语义的自适应图像特征。 因此,它们可以合成更具视觉上合理性的内容,尤其是对于诸如面孔[22、47],物体[29]和自然场景[15、49]之类的图像。在所有这些方法中,Iizuka等人。 [15]提出了一种具有全局和局部一致性的全卷积图像修复网络,以处理各种数据集上的高分辨率图像[18、32、53]。 但是,这种方法仍然严重依赖于Poisson图像融合与基于修补程序的传统修补结果[11]。 Yu等。 [49]提出了一种端到端的图像修复模型,该模型采用堆叠的生成网络来进一步确保生成区域与周围环境的颜色和纹理一致性。 此外,为了捕获远程空间依赖性,提出了上下文注意模块[49],并将其集成到网络中以明确地借用来自遥远空间位置的信息。 但是,这种方法主要在大型矩形蒙版上训练,而在自由形式的蒙版上效果不佳。 为了更好地处理不规则的蒙版,提出了部分卷积[23],其中卷积被屏蔽并重新归一化以仅利用有效像素。然后是基于规则的蒙版更新步骤,以逐层重新计算新的蒙版。

  1. 引导图像修复与合成

为了改善图像修复,探索了用户指南,包括点或线[1、3、7、40],结构[13],变换或失真信息[14、30]和图像示例[4、10、20、43、51 ]。 值得注意的是,Hays和Efros [10]首先利用数百万张照片作为数据库来搜索与输入最相似的示例图像,然后通过从匹配图像中剪切和粘贴相应区域来完成图像。条件生成网络的最新进展使从大规模数据集学习到的用户指导图像处理,合成和处理成为可能。 在这里,我们有选择地回顾了一些相关的工作。 张等。 [50]提出了可以将用户指导作为附加输入的着色网络。 Wang等。 [42]提出使用条件生成对抗网络从语义标签图合成高分辨率的真实感图像。 Scribbler [34]探索了一个基于草图边界和稀疏色笔画的深层生成网络,以合成汽车,卧室或面孔。

  1. 特征门控

在视觉[12,28,39,41],语言[6],语音[27]和许多其他任务中,已经广泛探索了基于特征的门控。 例如,Highway Networks [39]利用特征门控来简化非常深层网络的基于梯度的训练。 挤压和激励网络通过将每个通道与学习的S型门控值明确相乘来重新校准特征响应。 WaveNets [27]通过使用特殊功能门y = tanh(w1x)·Sigmoid(w2x)来建模音频信号,从而获得更好的结果。
方法

  1. 门控卷积

  我们首先解释为什么在[15,49]中使用的普通卷积不适用于自由形式的图像修补任务。我们考虑一个卷积层,其中将一组滤波器应用于输入特征图作为输出。 假设输入是C通道,则计算C’通道输出图中位于(y,x)的每个像素为 《Free-Form Image Inpainting with Gated Convolution》阅读笔记_第1张图片《Free-Form Image Inpainting with Gated Convolution》阅读笔记_第2张图片
该方程式表明,对于所有空间位置(y,x),都应用相同的滤波器以产生香草卷积层中的输出。 这对于诸如图像分类和对象检测之类的任务有意义,其中输入图像的所有像素均有效,以滑动窗口方式提取局部特征。 但是,对于图像修复,输入由在孔外具有有效像素/特征和在掩蔽区域中具有无效像素/特(在浅层中)或合成像素/特征(在深层中)的两个区域组成。 如[23]中报道的那样,这会在训练过程中引起歧义,并导致视觉伪影,例如颜色差异,模糊和明显的边缘响应。
  最近提出了部分卷积[23],它采用了掩蔽和重新归一化步骤,使得卷积仅取决于有效像素,如
《Free-Form Image Inpainting with Gated Convolution》阅读笔记_第3张图片
其中M是对应的二进制掩码,1表示位置(y,x)上的像素有效,0表示像素无效,⊙表示逐元素乘法。 在每个部分卷积运算之后,需要使用掩码更新步骤来传播具有以下规则的新M:m'y,x = 1,当sum sum(M)> 0时。
   局部卷积[23]提高了不规则蒙版上的修补质量,但仍然存在以下问题:(1)启发式地将所有空间位置分类为有效或无效。 无论上一层滤镜范围覆盖多少像素,下一层的遮罩都将被设置为一个(例如,将1个有效像素和9个有效像素视为相同,以更新当前遮罩)。 (2)与其他用户输入不兼容。 我们针对的是用户指导的图像修复系统,用户可以选择在遮罩内提供稀疏草图作为条件通道。 在这种情况下,应将这些像素位置视为有效还是无效? 如何正确更新下一层的遮罩? (3)对于部分卷积,无效像素将在深层逐渐消失,将所有蒙版值逐渐转换为一个。 但是,我们的研究表明,如果我们允许网络自动学习最佳蒙版,则即使在较深的层中,网络也会为每个空间位置分配软蒙版值。 (4)每层中的所有通道共享相同的掩码,这限制了灵活性。 本质上,部分卷积可以被视为难以学习的单通道特征门控。
《Free-Form Image Inpainting with Gated Convolution》阅读笔记_第4张图片我们提出了用于图像修复网络的门控卷积,如图2所示。门控卷积代替了用规则更新的硬门控遮罩,而是自动从数据中学习软遮罩。 公式为:
《Free-Form Image Inpainting with Gated Convolution》阅读笔记_第5张图片
其中σ是S型函数,因此输出门控值介于零和一之间。 φ可以是任何激活函数(例如ReLU,ELU和LeakyReLU)。 Wg和Wf是两个不同的卷积滤波器。
提出的门控卷积为每个通道和每个空间位置学习一种动态特征选择机制。 有趣的是,中间门控值的可视化表明,它不仅学会根据背景,蒙版,草图来选择特征,而且还考虑了某些通道中的语义分割。 即使在较深的图层中,门控卷积也可以学会在单独的通道中突出显示蒙版区域和草图信息,从而更好地生成修复效果。

  1. 修复网络架构
    《Free-Form Image Inpainting with Gated Convolution》阅读笔记_第6张图片
      我们用提出的门控卷积和SN-PatchGAN损失定制了一个生成的修复网络[49]。具体来说,我们在[49]中采用粗略网络和细化网络来适应完整的模型架构。 完整的框架总结在图3中。
      对于粗略和细化的网络,我们使用简单的编码器-解码器网络[49]代替PartialConv [23]中使用的U-Net。我们发现,UNet [31]中的跳过连接对非窄掩码没有显着影响。这主要是因为对于屏蔽区域的中心,这些跳过连接的输入几乎为零,因此无法将详细的颜色或纹理信息传播到该区域的解码器。 对于孔边界,配备门控卷积的编码器/解码器架构足以产生无缝结果。
    我们用门控卷积代替所有香草卷积[49]。 一个潜在的问题是门控卷积会引入其他参数。 为了保持与我们的基准模型[49]相同的效率,我们将模型宽度缩小了25%,并且在数量和质量上都没有发现明显的性能下降。 修复网络端到端经过培训,可以在任意位置的自由形孔上进行测试。 我们的网络是完全卷积的,并在推理中支持不同的输入分辨率。
    总结
      我们提出了一种新的自由形式的图像修复系统,该系统基于具有门控卷积的端到端生成网络,并经过逐像素loss1损失和SN-PatchGAN训练。 我们证明了门控卷积可通过自由形式的蒙版和用户指导输入显着改善修复效果。 我们以用户草图作为示例指导,帮助用户快速删除分散注意力的对象,修改图像布局,清除水印,编辑脸部并在照片中交互式创建新颖对象。 定量结果,定性比较和用户研究证明了我们提出的自由形式图像修复系统的优越性。

二、代码

https://github.com/JiahuiYu/generative_inpainting

三、参考链接

1、Free-Form Image Inpainting with Gated Convolution
2、论文阅读及代码运行–Free-Form Image Inpainting with Gated Convolution
3、论文下载链接

你可能感兴趣的:(阅读论文,计算机视觉,图像去噪)