自由形式的嵌入是在任意二进制掩码指定的区域向图像添加新内容的任务。大多数现有的方法训练掩码的特定分布,这将它们的泛化能力限制为不可见的掩码类型。此外,基于像素和感知损失的训练通常会导致对缺失区域的简单纹理扩展,而不是产生语义意义的生成。在这项工作中,我们**提出了RePaint:一种基于去噪扩散概率模型(DDPM)的嵌入方法,它适用于甚至极端的掩模。我们采用预先训练的无条件DDPM作为生成先验。为了调整生成过程,我们只通过使用给定的图像信息对未掩模区域进行采样来改变反向扩散迭代。**由于该技术不修改或调整原始DDPM网络本身,该模型产生高质量和各种各样的输出图像的任何inpainting形式。我们验证了我们的方法在人脸和通用图像嵌入使用标准和极端面具。RePaint的性能优于最先进的自回归技术,GAN方法至少适用于6个掩膜分布中的5个。Githu库:git.io/RePaint
简介
图像补全,也称为图像补全,旨在填补图像中缺失的区域。这样的内嵌区域需要与图像的其他部分协调,并在语义上合理。因此,嵌入方法需要强大的生成能力。为此,目前最先进的方法[20,39,47,50]依赖于GANs[8]或自回归建模[32,41,48]。此外,inpainting方法需要处理各种形式的蒙版,如薄或厚的笔刷,正方形,甚至是极端的蒙版,图像的绝大部分都丢失了。这是非常具有挑战性的,因为现有的方法训练一定的掩码分布,这可能导致对新的掩码类型的泛化很差。在这项工作中,我们研究了一种替代的生成式inpainting方法,旨在设计一种不需要面具特定训练的方法。
去噪扩散概率模型(DDPM)是生成建模的一种新兴替代范式[12,37]。最近,Dhariwal和Nichol[7]证明DDPM甚至可以超越最先进的基于gan的图像合成方法[4]。本质上,DDPM被训练为通过反转扩散过程迭代去噪图像。从随机采样的噪声开始,然后迭代应用DDPM一定数量的步骤,产生最终的图像样本。虽然基于原则性概率建模,但ddpm已被证明可以生成多样化和高质量的图像[7,12,27]。
**我们提出了RePaint:一种完全利用现成的无条件训练的DDPM的嵌入方法。具体来说,我们不是学习一个掩码条件生成模型,而是通过在反向扩散迭代期间从给定像素采样来调节生成过程。**值得注意的是,我们的模型因此没有为inpainting任务本身进行训练。这有两个重要的优势。首先,它允许我们的网络在推理过程中泛化到任何掩码。其次,它使我们的网络能够学习更多的语义生成能力,因为它具有强大的DDPM图像合成先验(图1)。
虽然标准的DDPM采样策略产生匹配的纹理,但inpainting通常在语义上是不正确的。因此,我们引入了一种改进的去噪策略,即重新采样(RePaint)迭代,以更好地调整图像。值得注意的是,我们的方法没有减慢扩散过程[7],而是在扩散时间上向前和向后移动,产生了显著的语义意义图像。我们的方法允许网络在整个推理过程中有效地协调生成的图像信息,从而对给定的图像信息进行更有效的调节。
相关工作
确定性图像嵌入:自从引入GANs[8]以来,现有的大多数方法都遵循由Pathak等人[31]首先提出的标准配置,即使用编码器-解码器架构作为主要的嵌入发生器、对抗训练和针对照片真实感的定制损失。近年来的后续工作取得了令人瞩目的成果[15,20,29,33,49]。
由于图像嵌入需要高级语义上下文,并且要显式地将其包含在生成管道中,因此存在一些手工的体系结构设计,如扩大卷积[16,44]来增加接受域,部分卷积[19]和门通卷积[47]根据嵌入掩码来引导卷积内核,上下文注意[45]利用全局信息,边缘映射[9,26,42,43]或语义分割映射[14,30]进一步指导生成,以及傅立叶卷积[39]有效地包括全局和局部信息。尽管最近的工作产生了照片-真实的结果,但GANs以纹理合成而闻名,因此这些方法在背景补全或删除对象方面表现突出,这需要重复的结构合成,并与语义合成进行挣扎(图5)。
图像嵌入的多样性:*大多数基于gan的图像嵌入方法由于在图像合成过程中缺乏控制,容易发生确定性变换。*为了克服这一问题,Zheng等[54]和Zhao等[52]提出了一种基于V ae的网络,在多样性和重建之间进行权衡。赵等人[53]受到StyleGAN2[18]调制卷积的启发,为嵌入任务引入了调制层,以提高多样性和重构。最近出现了一种新的自回归方法[32,41,48],它可以处理不规则的掩模,是自由形式图像嵌入的一种强大的替代方法。
使用图像优先:在一个不同的方向更接近我们的Richardson等利用StyleGAN优先成功地填充缺失的区域。*然而,与利用StyleGAN潜在空间的超分辨率方法类似,它也仅限于人脸等特定场景。*值得注意的是,Ulyanov等人表明,非训练的生成器网络结构包含一个固有的先验,可用于inpaining和其他应用。与这些方法相比,我们利用了预训练的去噪扩散概率模型(DDPM)的高表达性,因此使用它作为通用图像嵌入的先验。我们的方法为语义意义生成和纹理合成生成非常详细、高质量的图像。此外,我们的方法没有针对图像嵌入任务进行训练,而是充分利用了之前的DDPM,因此每个图像都是独立优化的。
图像条件扩散模型:SohlDickstein等人[37]将早期扩散模型应用于inpainting。最近,Song等人[38]开发了一个基于分数的公式,使用随机微分方程无条件生成图像,并附加了一个应用于嵌入。然而,这两种方法都只是定性的结果,并不能与其他方法进行比较。相比之下,我们的目标是推进图像修复技术的发展水平,并与文献上的顶级竞争方法进行综合比较。
另一个研究方向是使用基于ddpm的方法引导图像合成[6,24]。以IL VR[6]为例,利用条件图像的低频信息对训练好的扩散模型进行引导。然而,这种条件反射策略不能用于嵌入,因为在被屏蔽区域中高频和低频信息都不存在。[24]开发了另一种图像条件合成方法。引导生成是通过在某个中间扩散时间从引导图像初始化反向扩散过程来实现的。进一步采用迭代策略,重复几次反向过程,以改进协调。由于引导图像需要在中间时间步开始反向过程,因此这种方法不适用于inpainting,在inpainting中需要仅以非掩模像素为条件生成新的图像内容。此外,本文提出的重采样策略不同于并行[24]。我们从结束时间开始进行完整的反向扩散过程,在每个步骤中来回跳跃固定数量的时间步骤,以逐步提高生成质量。
**我们提出了一种条件化训练模型的方法,而并行工作[28]是基于无分类引导[13]来训练图像条件扩散模型的。**图像处理的另一个方向是使用扩散模型进行图像到图像的转换,这在并行工作[36]中进行了探索。它训练了一个基于图像条件的DDPM,并展示了一个应用程序来进行inpainting。与这两种并行工作不同,我们通过反向扩散过程本身利用无条件DDPM和唯一条件。它允许我们的方法毫不费力地推广到任何面具形状的自由形式的填充。此外,我们提出了一种反向过程的采样计划,大大提高了图像质量。