DFDNet [人脸幻构] [人脸超分] [ECCV2020] 论文翻译

DFDNet 论文翻译

翻译工具: DeepL

p.s. 用word写的(复制粘贴…),公式直接用的word的公式编辑器,csdn又不支持直接转换,我把word共享(link)出来了,想要良好的阅读体验看word会更好一些。

Introduction

盲目的人脸修复(或称人脸幻觉)旨在从真实的低质量(LQ)图像恢复到高质量(HQ)图像的真实细节,而不知道退化类型或参数。与单一的图像恢复任务相比,如图像超解像[9,36,46]、去噪[42,43]和去模糊[22,23],盲图恢复面临更多的挑战,但在恢复真实的LQ图像方面却有很大的实用价值。

近来, 得益于深度神经卷积网络中精心设计的架构和相关前值的加入,修复结果趋于合理和可接受。虽然已经取得了巨大的成就,但真实的LQ图像通常包含复杂多样的分布,综合起来不切实际,使得盲目恢复问题难以解决。为了解决这一问题,人们提出了基于参考的方法[7,26,35,47],通过在图像恢复任务中使用参考先验来改善网络学习的过程,减轻网络对劣化输入的依赖性。在这些方法中,GFRNet[26]和GWAINet[7]采用正面<相同身份的>HQ图像作为参考来指导退化观测的恢复。然而,这两种方法存在两个缺点。
1)它们必须从与LQ图像相同的身份获得正面HQ参考。
2)参考和退化输入之间的姿势和表情的差异将影响重建性能。这两个要求限制了其在一些特定场景下的应用能力(如老胶片修复或支持身份组的手机相册)。

在本文中,我们通过构建深度人脸词典来解决上述难题,提出了一个DFDNet。我们注意到,不同人的四种脸部成分(即左/右眼、鼻子和嘴)是相似的。因此,在这项工作中,我们通过对大量HQ人脸图像采用K-means离线构建人脸成分词典。这种方式可以在不需要相应身份归属的HQ图像的情况下,获得更准确的分量参考,这使得所提出的模型适用于大多数人脸修复场景。具体来说,我们首先采用预先训练好的VggFace[3]来提取HQ人脸图像在不同特征尺度下的多尺度特征(如不同卷积层的输出)。其次,我们采用RoIAlign[14]根据面部地标对其分量特征进行裁剪。然后,在这些特征上应用K-means,在不同的特征层次上为每个组件生成K个聚类。之后,提出组件自适应实例归一化(CAdaIN)来规范相应的字典特征,这有助于消除风格多样性的影响(即,照明或皮肤颜色)。最后,在退化的输入中,我们匹配并选择特征距离最小的字典成分簇,以自适应和渐进的方式指导下面的修复过程。预测一个置信度得分来平衡输入分量特征和所选字典特征。此外,我们使用多尺度字典逐步引导修复,进一步提高了性能。与以往基于参考的方法(即GFRNet[26]和GWAINet[7])只有一个HQ参考相比,我们的DFDNet有更多的成分候选者被选作参考,从而使我们的模型取得了优越的性能。

对我们提出的DFDNet的性能进行了广泛的实验评估。定量和定性结果显示了我们的方法所带来的深度多尺度人脸字典的优势。此外,DFDNet还可以在真实的LQ图像上产生可信的和有前景的结果。在不需要身份归属HQ参考的情况下,我们的方法在大多数人脸修复应用中是灵活实用的。综上所述,这项工作的主要贡献是:

  • 我们使用深度分量字典作为参考候选者来指导退化的人脸修复。所提出的DFDNet可以泛化到人脸图像上,而不需要身份归属HQ参考,比那些基于参考的方法更适用、更高效。
  • 我们提出利用CAdaIN进行DFT(字典特征转换)块,消除输入和字典簇之间的分布多样性,以实现更好的字典特征传递,同时我们还提出了一个置信度得分,以自适应地将字典特征融合到不同退化程度的输入中。
  • 我们采用循序渐进的方式来训练DFDNet,在不同的特征尺度中加入组件字典。这可以使我们的DFDNet学习从粗到细的细节。
  • 我们提出的DFDNet在合成和真实降级图像上都能取得可喜的性能,显示出它在实际应用中的潜力。

Related Work

在本节中,我们讨论了与我们的工作密切相关的关于单幅图像和基于参考的图像修复方法的最新工作。

2.1 Single Image Restoration

随着深度CNN带来的好处,单幅图像修复在许多任务中取得了巨大的成功,例如,图像超分辨率[9,19,24,44,46],去噪[13,38,42,43],去模糊[22,29,41],以及压缩伪影去除[8,10,12]。由于面部结构的特殊性,针对面部幻觉也有一些成熟的方法[2,4-6,15,37,39,40,48]。在这些方法中,Huang等[15]提出通过神经网络预测HQ图像的小波系数,对分辨率很低的人脸图像进行超分辨。Cao等[2]提出强化学习来发现(未再LQ中出现的部分像素),然后用可学习的局部网络来增强这些区域。为了更好地恢复结构细节,也有一些方法在恢复过程中加入了图像的先验知识。Wang等人[35]提出在自然图像超分辨率任务上使用语义分割概率图作为类先验来恢复类感知纹理。它首先将LR图像通过分割网络生成类概率图。而后将这些地图和LQ特征通过空间特征变换融合在一起。对于人脸图像,Shen等[33]提出学习一个全局语义的人脸先验作为输入,对输出施加局部结构。同样,Xu等[39]使用多任务模型预测面部成分热图,并将其用于融合结构信息。Chen等[4]学习面部几何先验(即地标热图和解析图),并采取它们来恢复高分辨率结果。Yu等[40]通过在LR特征空间中加入人脸属性向量,开发了面部属性嵌入网络。Kim等[6]采用渐进的方式生成连续的更高分辨率输出,并提出了对地标的面部注意力损失来约束重建的结构。然而,这些面部先验知识大多主要集中在几何约束上(即地标或热图),可能无法为LQ图像的恢复带来直接的面部细节。因此,这些单一的图像修复方法大多由于问题的不合理性,以及单一图像或面部结构先验给网络学习过程带来的局限性,未能在真实的LQ人脸图像上生成可信的、真实的细节。

Reference-Based Image Restoration

由于单一的图像修复方法在实际LQ图像上的局限性,有一些文献利用附加图像来指导修复过程,可以将物体结构细节带到最终结果中。在自然图像修复方面,Zhang等[47]利用与LR图像内容相似的参考图像,然后采用全局匹配方案搜索相似内容补丁。然后利用这些参考特征斑点来交换LR图像的纹理特征。这种方法可以实现极大的视觉改善。但是,从全局内容中搜索相似的补丁非常耗费时间和内存。此外,对参考的要求也进一步限制了它的应用,因为为每一个LR输入的图像寻找一个具有相似内容的自然图像也是非常可怕的,有时无法获得这些类型的图像。

DFDNet [人脸幻构] [人脸超分] [ECCV2020] 论文翻译_第1张图片
图1:我们提出的方法概述。它主要包含两个部分。(a)从大量具有不同姿势和表情的高质量图像中离线生成多尺度成分词典。采用K-means为每个分量(即左/右眼、鼻子和嘴)在不同的特征尺度上生成K个簇。(b)利用的恢复过程和字典特征转移(DFT)块,以逐步提供参考细节。在这里,DFT-i块将Scale-i分量字典作为同一特征层次的参考。

与自然图像不同,人脸拥有特定的结构,并在同一身份的不同图像上共享相似的成分。基于这一观察,人们开发了两种基于参考的人脸修复方法。Li等[26]和Dogan等[7]为每个身份使用一个固定的正面(就是同一个人的意思嘛)HQ参考,以提供身份感知特征,从而有利于修复过程。然而,我们注意到,人脸图像通常是在无约束条件下拍摄的,例如,不同的背景、姿势、表情、照明等。为了解决这个问题,他们利用WarpNet来预测流场,以扭曲参考与LQ图像对齐。然而,这种对齐方式仍然不能解决参考和输入之间的所有差异,即嘴部靠近到打开。此外,扭曲的参考通常是不自然的,可能会采取明显的伪影到最终的重建结果。我们注意到,不同身份之间的每个组件都有相似的结构(即牙齿、鼻子和眼睛)。直观的说,就是将整个人脸分割成不同的部分,并为每个部分生成具有代表性的组件。为了实现这一目标,我们首先在HQ图像上使用K-means对不同的组件特征进行离线聚类。然后,我们将进行的分量字典中的LQ特征进行匹配,选择结构相似的分量字典来指导后面的还原工作。此外,有了进行式字典(conducted dict),我们不再需要身份归属的参照物,可以选择更多的分量候选者作为参照物。这比基于参考的修复中只有一张人脸图像要准确有效得多,可以应用在无约束的应用中。

Proposed Method

本工作受以前基于参考的图像恢复方法[7, 26, 47]的启发,试图克服人脸恢复中需要参考图像的限制。在给定一个LQ图像I^d的情况下,我们提出的DFDNet的目的是通过进行的分量字典来生成可信的和现实的HQ,也就是一个 I ̂^h。本研究受前人基于参考的图像恢复方法[7, 26, 47]的启发,试图克服人脸恢复中需要参考图像的局限性。在给定一个 LQ 图像I^d的情况下,我们提出的 DFDNet 的目的是通过进行的分量字典来生成可信的、真实的 HQ one I ̂h。整个流水线如图1所示。在第一阶段(图1(a)),我们首先通过k-means从高质量的图像Ih中生成深层分量字典。这些字典可以被选为候选分量参考。在第二阶段(图1(b)),对于退化观测值I^d的每个分量,我们的DFDNet选择与输入结构最相似的字典特征。特别是,我们根据输入分量,通过分量AdaIN(术语为CAdaIN)对整个字典进行重新规范,以消除分布或风格多样性。然后利用选定的词典特征,通过词典特征转换来指导修复过程。此外,我们在所选字典特征上引入置信度得分,通过加权特征融合来概括不同的退化程度。由粗到细的渐进方式也有利于修复过程的进行。在下文中,我们首先介绍了多尺度深度成分词典的离线生成。然后对我们提出的DFDNet以及字典特征转移(DFT)块的细节进行了解释。最后介绍了训练的目标函数。

3.1 Off-line Generation of Component Dictionaries

为了建立覆盖最多类型的人脸的深度组件字典,我们采用FFHQ数据集[18],因为它的质量很高,而且在年龄、种族、姿势、表情等方面有相当大的差异。我们利用DeepPose[32]和Face++1分别识别其姿势和表情(即愤怒、厌恶、恐惧、快乐、中立、悲伤和惊讶),以平衡各属性的分布。在FFHQ的这7万张高质量图像中,我们选择1万张来建立我们的字典。给定一张高质量的图像I^h ,我们首先使用预先训练好的VggFace[3]来提取其不同尺度的特征。利用dlib[20]检测到的landmarksL^h,我们利用RoIAlign[14]在每个尺度上对这四个分量进行裁剪和重新采样,使其达到固定大小。然后,我们采用K-means[30]为每个组件生成K个簇,从而得到我们的组件字典。特别是在处理256×256图像时,将尺度-1上的左/右眼、鼻子和嘴的特征大小分别设置为40/40、25、55。对于{2,3,4}尺度,这些大小被逐一下采样两次。这些字典特征可以表述为:
█(Dic_(s,c)=F_Dic (Ih│Lh;Θ_Vgg )#(1) )
其中s∈{1,2,3,4}为字典标度,c∈{“左眼,右眼,鼻子,嘴巴”}为元件类型,Θ_Vgg为VggFace的固定参数。

3.2 Deep Face Dictionary Network

在建立高质量的组件字典后,我们的DFDNet被提出来将字典特征转移到退化的输入I^d 。提出的DFDNet可以表述为:
█(I ̂=F(Id│Ld,Dic;Θ)#(2) )
其中L^d和Dic代表的landmark和公式1中的组件字典。Θ表示DFDNet的可学习参数。

为了保证Id和Dic的特征在同一特征空间中,我们把预先训练好的VggFace模型作为DFDNet的编码器,它在字典生成网络中的网络结构和参数都是一样的(图1(a))。假设DFDNet的编码器与VggFace不同,或者在训练阶段可训练,则很容易产生不同的特征,而这些特征与预导的字典不一致。为了更好地将字典特征传递给输入部件,我们建议采用DFT块,并以渐进的方式使用。它主要包含五个部分,即RoIAlign、CAdaIN、特征匹配、置信分和反向RoIAlign。对于Id的编码器特征,我们首先利用RoIAlign生成四个分量区域。我们注意到,这些输入的分量可能与所进行的词典群Dics,c有不同的分布/风格,我们在此建议采用分量自适应实例规范16对词典中的每个群进行重新规范。然后利用特征匹配方案来选择具有相似纹理的簇。此外,根据所选簇与输入特征之间的残差预测置信度得分,以更好地提供输入的补充细节。最后采用反向RoIAlign将还原后的特征粘贴到相应位置。为了更好地将恢复的特征转换到解码器中,我们修改了UNet[31],并提出使用空间特征变换(SFT)[35]将字典特征转移到退化的输入中。

CAdaIN. 我们注意到,人脸图像通常处于无约束条件下,例如,不同的照度、皮肤颜色。为了消除这些输入组件和字典之间的差异性的影响,我们采用组件AdaIN(CAdaIN)对组件字典中的聚类进行重新规范,以实现精确的特征匹配。AdaIN[16]可以保持结构,同时将内容翻译成所需的风格。分别表示F_(s,c)d和〖Dic〗_(s,c)k为输入Id的第c个分量特征和s尺度下的分量词典中的第k个簇。由CAdaIN的重规范词典RDic_(s,c)k的公式为:
█(RDic_(s,c)k=σ(F_(s,c)d )((〖Dic〗(s,c)k-μ(〖Dic〗_(s,c)k ))/σ(〖Dic〗(s,c)^k ) )+μ(F_(s,c)^d )#(3) )
其中,s和c分别为尺度和公式1中定义的成分类型(眼睛、鼻子…),σ和μ为平均值和标准差。重新归一化后的词典RDic_(s,c)k与输入成分F_(s,c)d具有相似的分布,不仅可以消除风格差异,而且有利于特征匹配模式的实现。

Feature Match. 对于输入的分量特征F_(s,c)d和重归一的字典RDic_(s,c)k,我们采用内积来衡量F_(s,c)d和RDic_(s,c)k中所有簇之间的相似度。对于分量字典中的第k个簇,相似度定义为:
█(S_(s,c)k=⟨F_(s,c)d,RDic_(s,c)^k ⟩#(4) )
输入的分量特征F_(s,c)d在重新归一化后的分量字典中的所有簇中进行匹配,以选择最相似的一个簇。F_(s,c)d与对应字典中的第k个聚类具有相同的大小,因此这个内积操作可以看作是在所有聚类上执行的F_(s,d)^c的零偏差和权重的卷积层。这样可以非常高效地获得字典的相似度分数。在所有的分数S_(s,c)中,我们选择相似度最高的re-norm cluster作为匹配的词典,称为RDic_(s,c)*。挑选出的成分特征RDic_(s,c)*将被用于提供高质量的细节,以指导下一节的输入成分的还原。

Confidence Score. 我们注意到,输入的轻微退化(例如,x2超分辨率)对字典的依赖性很小,反之亦然。为了使DFDNet能够泛化到不同的退化水平,我们将F_(s,c)d和Dic_(s,c)*之间的残差作为输入,预测在所选字典特征Dic_(s,c)*上执行的置信度分数。其结果中包含了可以补充到F_(s,c)d中的缺失的细节。置信度分数的输出可以用以下的方法表示:
█(F ̂_(s,c)=F_(s,c)d+RDic_(s,c)**F_Conf (RDic_(s,c)*-F_(s,c)d;Θ_C )#(5) )
其中Θ_C为置信度得分块F_Conf的可学习参数。

Reverse RoIAlign. 在所有的输入成分经过前一部分的处理后,这里我们利用RoIAlign的反向操作,将F ̂_(s,c)和c∈{“左/右眼、鼻子和嘴”}取到F_(s,c)^d的原始位置。将反向RoIAlign的结果表示为F ̂_s,这种方式可以很容易地将其他特征(如背景)保留并转化到解码器中,以便更好地进行还原。
受SFT[35]的启发,提出了通过仿射变换来学习包含一些先决条件的特征调制函数。通过两个卷积层从还原的特征F ̂_s中学习尺度α和移位β参数。S尺度的 SFT层的公式为:
█(SFT_s=α⊙F_s^“decoder” +β#(6) )
其中α和β都是元素化的权重,它们与s尺度下的解码器F具有相同的形状(即高度、宽度、通道数),经过渐进式DFT块,我们的DFDNet可以逐渐学习到细微的细节,以获得最终结果I ̂。

3.3 Model Objective

训练我们的DFDNet的学习目标包含两部分,1)重构损失,约束结果I ̂接近地真值I^h ,2)恢复现实细节的对抗性损失[11]。
Reconstruction Loss. 我们在像素和特征空间上都采用均方误差(MSE)(感知损失[17])。整个重建损失定义为:
█(l_rec=λ_l2 ∥I ̂-I^h ∥2+∑_(m=1)M▒  λ_(p,m)/(C_m H_m W_m ) ∥Ψ_m (I ̂ )-Ψ_m (I^h )∥^2#(7) )
其中Ψ_m表示VggFace模型Ψ中的第m个卷积层。C、H和W是第m个特征的通道、高度和宽度,λ_l2和λ_(p,m)是权衡参数(tradeoff parameters)。第一个项容易产生模糊的结果,而第二个项(感知损失)有利于提高重建结果的视觉质量。这两个项的组合在计算机视觉任务中很常见,在神经网络的稳定训练中也很有效。在我们的实验设置中,我们设置M等于4(意思就是在四个尺度上算感知损失)。

Adversarial Loss. 在图像修复任务中,它被广泛用于生成逼真的细节。在本工作中,我们采用了不同大小的多尺度判别器[34]来处理修复结果。此外,为了稳定地训练每个判别器,我们采用了SNGAN[28],在每个卷积层后加入光谱归一化。训练多尺度判别器的目标函数定义为:█(l_(adv,D_r )=∑_r^R▒  E_(I_(↓r)h∼P(I_(↓r)h ) ) [min(0,D_r (I_(↓r)^h )-1)]+E_(I ̂_(↓r)∼P(I ̂_(↓r) ) ) [min(0,-1-D_r (I ̂_(↓r) ))]#(8) )
其中↓r表示规模因子r的下采样操作,r∈{1,2,4,8}。同理,训练生成器F的loss定义为:
█(l_(adv,G)=-λ_(a,r) ∑_r^R▒  E_(Id∼P(Id ) ) [D_r (F(Id∣Ld,Dic;Θ)(↓r) )]#(9) )
其中λ
(a,r)是每个尺度判别器的权衡参数(tradoff parameter)。
综上所述,训练我们DFDNet的全部目标函数可以写成重构和对抗损失的组合
█(L=l_rec+l_(adv,G)#(10) )

4 Experiments

由于基于参考的方法的性能通常优于其他单幅图像或人脸修复方法[26],在本文中,我们主要将我们的DFDNet与基于参考的方法(即GFRNet[26],GWAINet[7])和基于人脸先验的方法(即Shen等[33],Kim等[6])进行比较。我们还报告了单一自然图像(即RCAN[46]、ESRGAN[36])和人脸(即WaveletSR[15])超分方法的结果。在这些方法中,Shen等人[33]和Kim等人[6]只能处理128×128的图像,而其他方法可以还原256×256的图像。为了公平比较,我们的DFDNet是在这两种尺寸上进行训练的(称为DFDNet128和DFDNet256)。RCAN[46]和ESRGAN[36]最初是在自然图像上训练的,因此我们使用我们的训练数据对它们进行再训练,以便进一步进行公平比较(术语为RCAN和ESRGAN)。WaveletSR[15]也是使用我们的训练数据和他们发布的训练代码进行再训练的(术语为*WaveletSR)。继[26]之后,在超分辨率任务(×4和×8)上报告了PSNR、SSIM和LPIPS[45],其中也有随机注入高斯噪声和模糊操作,用于定量评估盲目恢复任务。在定性比较方面,我们展示了合成和真实世界的低质量图像的比较。更多的视觉结果包括高分辨率修复性能(即512×512)可以在我们的补充材料中找到。

4.1 Training Details

如3.1节所述,我们从FFHQ[18]中选取10000张图像来构建我们的组件字典。我们注意到,GFRNet、GWAINet和WaveletSR采用VggFace2[3]作为它们的训练数据,我们也用它来训练和验证我们的DFDNet,以便进行公平比较。为了评估我们方法的通用性,我们建立了两个测试数据集,即来自VggFace2[3]的2000张测试图像与训练数据不重叠,另外2000张图像来自CelebA[27]。它们中的每一张都有来自同一身份的高质量参考,用于运行GFRNet和GWAINet。为了合成近似于真实LQ图像的训练数据,我们采用了GFRNet[26]中建议的相同退化模型。
█(Id=((Ih⊗k)(↓_r )+n_σ )(JPEG_q )#(11) )
其中k表示两种常见的模糊核,即高斯模糊,ϱ∈{1∶ 0.1∶ 5}和[1,25]的32种运动模糊核。下采样器r、高斯噪声n_σ和JPEG压缩质量q分别从{1 : 0.1 : 8},{0 : 1 : 15}和{40 : 1 : 80},分别。训练DFDNet的权衡参数设置如下:λ_l2=100,λ_(p,1)=0.5,λ_(p,2)=1,λ_(p,3)=2,λ_(p,4)=4,λ_(a,1)=4,λ_(a,2)=2,λ_(a,4)=1,λ_(a,8)=1。采用Adam优化器[21]来训练我们的DFDNet,学习率lr=2×10^(-4),β_1= 0.5,β_2=0.999,当验证集上的重建损失变得非递减时,lr减少2倍。整个模型包括多尺度成分字典的生成和DFDNet的训练都是在一台128G内存和4台Tesla V100的服务器上进行的。训练我们的DFDNet需要4天时间。

4.2 Results on Synthetic Image

Qualitative evaluation. 这些竞争方法在超分辨率任务上的定量结果如表1所示。我们可以有以下观察结果。

DFDNet [人脸幻构] [人脸超分] [ECCV2020] 论文翻译_第2张图片
DFDNet [人脸幻构] [人脸超分] [ECCV2020] 论文翻译_第3张图片

Figure2. 这些竞争方法在×4 SR任务上的视觉比较。GFRNet右下方的放大特写是所需的指导。

  1. 与所有的竞争方法相比,我们的DFDNet在两个数据集和两个超分辨任务上都以较大的优势优于其他方法(即在×4和×8上分别比第2位最好的方法至少高出0.4dB和0.3dB)。
  2. 即使经过重新训练的RCAN和ESRGAN取得了很大的改进,但性能仍然不如GFRNet、GWAINet和我们的DFDNet,主要原因是缺乏高质量的面部参照物。
  3. 在相同的训练数据下,基于参考的方法(即GFRNet[26]和GWAINet[7])的性能优于其他方法,但仍然不如我们的DFDNet,这可能是由于加入了高质量的成分字典和渐进式字典特征转移方式。给定一个LQ图像,我们的DFDNet有更多的候选者被选作分量参考,从而实现灵活有效的修复。
  4. 我们的分量字典是在FFHQ[18]上进行的,DFDNet是在VggFace2[3]上训练的,但在CelebA[27]上的表现仍然优于其他方法,说明我们的DFDNet具有很大的通用性。

DFDNet [人脸幻构] [人脸超分] [ECCV2020] 论文翻译_第4张图片
Figure3. 这些竞争方法在×8 SR任务上的视觉比较。GFRNet右下方的特写是所需的指导。
DFDNet [人脸幻构] [人脸超分] [ECCV2020] 论文翻译_第5张图片
Figure4. 竞争方法的视觉比较,在真实世界的低质量图像上的性能名列前茅。右下角的特写是所需的指导。

Visual Comparisons. 图2和图3显示了这些竞争方法在×4和×8超分辨率任务上的修复结果。Shen等人[33]和Kim等人[6]被提出来处理人脸去模糊和超分辨率问题。由于他们只发布了他们的测试模型,我们在本文中没有用相同的训练数据和退化模型重新实现他们,导致他们的性能很差。经过重新训练的*RCAN、ESRGAN和WaveletSR在生成可信的面部结构方面仍然有限,这可能是由于缺乏合理的面部还原指导造成的。在基于参考的方法方面,GFRNet[26]和GWAINet[7]可以生成可信的结构,但无法还原真实的细节。与这些竞争性方法相比,我们的DFDNet可以重建有希望的结构,在这些显著的面部区域(即眼睛和嘴巴)上有更丰富的细节。此外,即使退化的输入不是正面,我们的DFDNet也可以有可信的性能(图2和图3中的第2行)。

Performance on Real-world Low-quality Images. 我们的目标是在不知道退化类型和参数的情况下恢复真实的低质量图像。为了评估我们的DFDNet在盲目人脸还原上的性能,我们从Google Image中选取人脸分辨率低于80×80的真实图像,并且每张图像都有一个身份归属的高质量参照物,用于运行GFRNet[26]和GWAINet[7]。这里我们只在图4中展示了定量性能排名前5的竞争方法的视觉结果。在这些竞争方法中,只有GFRNet[26]被提出来处理盲目的人脸修复,因此可以很好地推广到真实的退化图像。然而,由于只有一张高质量的图像作为参考,其结果仍然存在明显的伪影。随着组件字典的加入,我们的DFDNet可以产生可信和真实的结果,特别是在眼睛和嘴的区域,这表明我们的DFDNet在处理真实退化观测的有效性。此外,我们的DFDNet不需要身份归属参考,显示出广泛的应用价值。
DFDNet [人脸幻构] [人脸超分] [ECCV2020] 论文翻译_第6张图片
Figure5. 我们的DFDNet在不同簇数下的恢复结果。


DFDNet [人脸幻构] [人脸超分] [ECCV2020] 论文翻译_第7张图片
Figrue6. DFDNet变种的恢复结果。

4.3 Ablation Study

为了评估我们提出的DFDNet的有效性,我们进行了两组消解实验,即每个组件字典的簇数K,以及渐进式字典特征转移块(DFT)。对于第一种,我们在组件字典中生成不同数量的簇。在本文中,我们考虑集群K∈{16,64,128,256,512}。对于每个变体,我们用相同的实验设置重新训练我们的DFDNet256,但簇数不同,定义为Ours(#K)。我们VggFace2测试数据的量化结果如表2所示。可以看到,Ours(#64)与GFRNet[26]的性能几乎相同。我们分析,由于GFRNet[26]采用了参考和退化输入之间的对齐方式,使得Ours(#16)的性能比它差。通过增加簇数,我们的DFDNet往往能取得更好的效果。我们注意到,Ours(#256)的性能与Ours(#512)相当,但在特征匹配方面耗时较少。因此,我们采用Ours(#256)作为我们的默认模型。图5中也呈现了这五个变体之间的视觉对比。我们可以看到,当K较大时,修复结果趋于清晰,而且更加真实,这说明我们的字典在引导修复过程中的有效性。
DFDNet [人脸幻构] [人脸超分] [ECCV2020] 论文翻译_第8张图片
第二种,为了评估我们的渐进式DFT块的有效性,我们考虑以下变体。1) Ours(Full):本文中的最终模型,2) Ours(0DFT):我们的DFDNet通过去除所有的DFT块,直接使用SFT将编码器特征转移到解码器,3) Ours(2DFT):我们的DFDNet有两个DFT块(即DFT-{3,4}块),4) Ours(-Ada)和Ours(-CS):通过分别去除最终模型所有DFT块中的CAdaIN和置信度得分。表3报告了我们VggFace2[3]测试数据的量化结果。我们可以有以下观察。(i)通过增加DFT块数,取得了明显的增益(在×4中至少有2.2dB,在×8中至少有0.6dB),说明我们的渐进方式是有效的。(二)去掉CAdaIN后,性能严重下降。这可能是由于退化特征和字典分布不一致,导致修复时匹配的特征错误造成的。(三)加入置信度得分,可以帮助平衡输入和匹配的字典特征,我们的DFDNet也可以实现可信的改进。图6显示了这些变体的修复结果。我们可以看到,与Ours(0DFT)和Ours(2DFT)相比,Ours(Full)更加清晰,包含了丰富的细节。Ours(-Ada)的结果与地真(即1-行的口部区域)不一致。顺便说一下,当降级较轻时(1-st row),直接将字典特征换到降级图像的Ors(-CS)很容易改变原来的内容(嘴部区域),使人脸成分得到不希望的修改。

Conclusion

在本文中,我们提出了一种盲目的人脸恢复模型,即DFDNet,以解决基于参考的方法的局限性。为了消除(带有身份属性的)高质量参照物的依赖性,我们首先建议在大量高质量图像上采用传统的K-means来聚类具有感知意义的面部成分。在字典特征转移方面,我们提出了一个DFT块,通过解决以下问题,降级输入和字典特征之间的分布多样性与提出的组件AdaIN,特征匹配方案与快速的内积相似性,以及泛化到降级与置信度分数。最后,多尺度的分量字典以渐进的方式融入到多个DFT块中,可以使我们的DFDNet学习到从粗到细的人脸修复细节。实验验证了我们的DFDNet在处理合成和真实世界的低质量图像时的有效性。此外,我们不需要身份归属参照物,显示了DFDNet在宽场景中的实际应用价值。

你可能感兴趣的:(ECCV2020,计算机视觉,机器学习,人工智能,深度学习,神经网络)