Resolution-robust Large Mask Inpainting with Fourier Convolutions 解读


现代的图像补全系统尽管取得了重大进展,但经常与大的缺失区域,复杂的几何结构和高分辨率的图像数据作斗争。我们发现,其中一个主要的原因是其补全网络和损失函数中都缺乏一个有效的感受野。为了缓解这一问题,我们提出了一种新的方法——large mask inpainting(LaMa)。
LaMa是1)基于一种使用快速傅里叶卷积的全新的补全网络框架,其有着覆盖整张图像范围的感受野;2)一个高感受野的感知损失;3)大的训练掩膜,它可以彰显前两个特点的优越性。
解决图像补全问题的方法——现实地填充缺失的部分——既需要“理解”自然图像的大规模结构,也需要进行图像合成。一个大的有效的接受域[29]对于理解图像的全局结构从而解决补全问题至关重要。

Method

此补全网络只有一个阶段,我们的目标是补全一个被二进制掩膜覆盖的彩色图像x,输入的掩膜覆盖图像表示为 x ⊙ m x \odot m xm。掩膜 m m m和掩膜覆盖图像 x ⊙ m x \odot m xm堆叠在一起,得到一个四通道的输入张量 x ′ = s t a c k ( x ⊙ m , m ) x'=stack(x \odot m, m) x=stack(xm,m)。我们使用一个前馈补全网络 f θ ( ⋅ ) f_{\theta}(·) fθ(), 我们也称之为生成器。提取 x ′ x' x,补全网络以全卷积的方式处理输入,并生成一个三通道的补全图像 x ^ = f θ ( x ′ ) \hat{x} = f_{\theta}(x') x^=fθ(x)。该训练的数据集由真实图像和和合成的掩膜两部分组成。

Global context within early layers

生成适当的补全需要考虑全局环境。因此,我们认为一个好的架构应该在通道处理中尽可能早的拥有尽可能广泛的感受野单元。传统的全卷积模型,如ResNet[14],其有效感受野[29]增长缓慢。感受野可能是不够的,特别是在网络的早期层,由于典型的小卷积核(例如3×3)。因此,网络中的许多层将缺乏全局上下文,并将浪费计算和参数来创建一个全局层。对于宽掩膜,生成器在特定位置的整个感受野可能处于掩膜内部,因此只观察到缺失的像素。
Resolution-robust Large Mask Inpainting with Fourier Convolutions 解读_第1张图片

Fast Fourier convolution (FFC)

快速傅里叶卷积(FFC)[4]是最近提出的算法,允许在早期层中使用全局上下文。FFC是基于一个通道级别的快速傅里叶变换(FFT),并有一个覆盖整个图像的感受野。
FFC将通道划分为两个并行的分支:i)局部分支使用传统的卷积,ii)全局分支使用真实的FFT来解释全局上下文。真FFT只能应用于实值信号,而逆实FFT保证了输出是实值的。
与FFT相比,Real FFT只使用了一半的频谱。
具体来说,FFC会执行以下步骤:
Resolution-robust Large Mask Inpainting with Fourier Convolutions 解读_第2张图片
Resolution-robust Large Mask Inpainting with Fourier Convolutions 解读_第3张图片
最后将局部和全局分支的输出融合在一起。
我们证明,FFC非常适合捕获周期结构,这在人造环境中很常见,如砖、梯子、窗户等。

Loss functions

High receptive field perceptual loss

单纯的监督损失需要生成器精确得重建Ground truth。然而,图像的可见部分往往不包含足够的信息来精确得重建掩码部分。因此,使用单纯的监督损失导致模糊的结果,由于平均多层合理模式的补全内容。
相比之下,感知损失[20]通过预先训练的基础网络 ϕ ( ⋅ ) \phi(·) ϕ()评估从预测图像中提取的特征与目标图像之间的距离。它不需要精确的重建,允许重建图像的变化。大规模掩码补全的重点转向了对全局结构的理解。因此,我们认为使用具有感受野快速增长的基础网络是很重要的。我们引入了高感受野的感知损失(HRF PL),它使用了一个高感受野基于模型 θ H R F ( ⋅ ) \theta_{HRF}(·) θHRF()
Resolution-robust Large Mask Inpainting with Fourier Convolutions 解读_第4张图片
一个训练感知损失的基础网络对于感知损失是十分重要的。例如,使用分割模型作为感知损失的主干可能有助于关注高级信息,例如物体及其部分。相反,已知的分类模型更多地关注纹理[10],这可能会引入对高级信息有害的偏见。

adversarial loss

我们使用对抗性损失来确保补全模型 f θ ( x ′ ) f_{\theta}(x') fθ(x)生成自然的局部细节。我们定义一个鉴别器 D ξ ( ⋅ ) D_{\xi}(\cdot) Dξ()用来鉴别局部补丁的真伪。只有与掩膜区域相交的补丁才会得到“假”标签。由于有监督的HRF感知损失,生成器快速学习复制输入图像的已知部分,因此我们将生成图像的已知部分标记为“真”。最后,我们使用非饱和的对抗损失。
Resolution-robust Large Mask Inpainting with Fourier Convolutions 解读_第5张图片

The final loss function

Resolution-robust Large Mask Inpainting with Fourier Convolutions 解读_第6张图片

Generation of masks during training

我们系统的最后一个组成部分是一个掩膜生成策略。每个训练的输入数据 x ′ x' x都是一张来自训练数据集的真实图像,由一个综合生成的掩膜叠加。
Resolution-robust Large Mask Inpainting with Fourier Convolutions 解读_第7张图片
代码链接:https://github.com/saic-mdal/lama

你可能感兴趣的:(ubuntu,linux,运维)