ATMFN论文阅读笔记

题目:ATMFN: Adaptive-threshold-based Multi-modelFusion Network for Compressed Face Hallucination

中文:用于压缩幻觉的基于自适应阈值的多模型融合网络

ATMFN论文阅读笔记_第1张图片

摘要

  • 尽管最近在幻觉方面取得了长足的进步,【缺点】基于单一深度学习框架的现有方法很难在复杂退化的情况下从小脸部令人满意地提供面部特征。本文提出了一种用于压缩人脸幻觉的基于自适应阈值的多模型融合网络(ATMFN),该网络融合了不同的深度学习模型,以充分利用其各自的学习优势。首先,我们构造基于CNN,GAN和RNN的基础超级分解程序,以产生候选SR结果。此外,提出了关注子网络以学习捕获候选SR脸部最具信息分量的单个融合权重矩阵。特别是,融合矩阵和基础网络的超参数以端到端的方式一起优化,以驱动它们进行协作学习。最后,采用基于阈值的融合和重建模块来开发候选人的互补性,从而生成高质量的人脸图像。在基准面部数据集和真实世界样本上进行的大量实验表明,在定量指标和视觉效果方面,我们的模型优于最新的SR方法。代码和配置在https://github.com/kuihua/ATMFN上发布。
  • 索引术语-基于阈值的融合网络,注意力机制,整体学习,面部压缩幻觉

背景:基于单一深度学习框架的现有方法在复杂情况下不适用。
方法:基于自适应阈值的多模型融合网络(ATMFN)**,该网络融合了不同的深度学习模型,以充分利用其各自的学习优势
结论:在定量指标和视觉效果方面,我们的模型优于最新的SR方法

引言

  • 幻觉[1],作为特定领域的图像SR,在过去的十年中引起了广泛的关注。为了建模低分辨率(LR)和高分辨率(HR)脸部图像之间的映射关系,传统方法都尝试利用具有子空间约束的全局先验[2],[3],[4],[5]或具有局部先验条件的局部先验。稀疏性[6],协作[7]和局部性[8],[9]约束。但是,这些方法的表示能力不足,导致在远距离成像和压缩等复合降解条件下进行大规模SR任务时性能较差。受到深度学习在其他领域成功的启发,最近已经提出了用于图像恢复任务的各种算法。但是,可以通过单个SR模型(即卷积神经网络(CNN)[12],生成对抗网络(GAN)[13]或递归神经网络[RNN] [14])可靠地推断和估计有限的信息。更准确地说,【CNN网络导致模糊,平滑】基于CNN的模型[15],[16],[17]易于完成训练和收敛,但是使用的全局优化策略倾向于模糊视觉效果(请参考图1中的“ CNN”结果) )。作为典型的基于CNN的SR方法,SRCNN [12]和VDSR [18]可以生成高峰值信噪比(PSNR),但结果却过于平滑。相比之下,基于GAN的方法[19],[20]引入了对抗训练和知觉损失[21],以驱动网络以高保真度和真实性构成逼真的结果。【基于GAN网络的方法会导致伪影】尽管在视觉效果上似乎更合理,但由于图像内容对噪声敏感,因此通常会受到伪影的污染。特别是对于重建微小且压缩的面部图像,基于GAN的模型[19],[20]可能会产生与图像无关的其他高频信息。【RNN网络可以挖掘全局纹理的相互依赖关系】基于RNN的方法[22]可以利用强大的循环处理历史信息的能力来挖掘和利用全局纹理的相互依赖关系,并表现出极大的优越性(参见图1中的“ GAN”的结果)。顺序任务[14]。对于低级计算机视觉任务,例如人脸重建,循环结构可以通过对上下文纹理的信息流进行建模,从而在挖掘跨空间区域的相互依赖性方面提供积极的好处。尽管以上这些方法在产生特定图像细节方面均具有各自的优势,【单一模型效果不能保证保真度和清晰度,而且单一模型不可靠,所以考虑结合这些模型】但是单一的深度学习模型(无论是CNN,GAN还是RNN)都无法同时保证幻觉面孔的保真度和清晰度。另外,单一SR模型不能可靠地推断和评估足够的信息,因此,一个自然的问题是是否有可能将其优势整合到统一模型中,并通过自动可控的融合机制进行自适应监督以应对具有挑战性的低风险。质量面对SR任务。

  • 能不能提出一个网络,结合CNN和GAN。不要RNN网络

  • 神经网络集成是一种学习范式,其中许多神经网络共同用于解决问题[23],[24],已广泛应用于数据挖掘和模式识别等许多领域,从而可以作为神经网络的理论指导。解决上述问题。就SR任务而言,集成模型可以从其所有超级分解器中受益。但是,如何整合由集合超分解器生成的一组候选成员的优势来产生更好的结果呢?常用的方法是**【如何结合多个网络呢】将所有候选结果直接以像素为单位累加或与预设权重融合。尽管这些方案可以集中所有超级解析器的优点,但我们无法满足的缺点也被组合在一起。【融合之后虽然优点结合,但是缺点也结合齐起来了】**特别是,Zhouet等人[24]事实证明,结合学习者的部分特征而不是全部特征可能会更好。因此,有效的融合机制值得追求。在[25]中,作者提出了一种将视频SR重建任务分为两个阶段的方法。然后,他们使用深层神经网络从多集合筏中选择了最优的。然而,由于仅选择最佳样本进行后续重建,因此无法充分利用集成学习的优势。此外,Wanget等[26]。组装了多个整体成员,并有效地提高了重建质量。他们基于基于稀疏编码的网络(SCN)[27],通过将具有不同初始化的多个SR模型集成在一起,构建了基于整体的稀疏编码网络(ESCN)。尽管ESCN与原始SCN相比取得了明显的改进,但是他们仅通过一种深度学习方法构建候选超级分解器的方式极大地限制了集成模型的表示潜力。此外,在集成模型中整个区域共享统一的权重参数的方式忽略了局部图像内容的个别属性,从而进一步牺牲了重建性能。

  • 在本文中,我们构建了一个简单但有效的基于自适应阈值的多模型融合网络(ATMFN),以对微小和压缩的人脸图像进行超分辨。与先前学习一种统计模型或所需HR图像参数的先验知识的方法不同,ATMFN使用多个候选深度学习网络(CNN,GAN和RNN)来发挥整体学习优势。大致分为三个部分:候选者生成,整体权重学习以及基于自适应阈值的融合和重构。第一部分由底层超级分解器产生多个初步的SR结果,作为整体候选者。第二部分,我们借助注意力机制学习特定权重矩阵来指导网络去专注于每个候选超分辨人脸图像的注意力区域。通过将矩阵施加到SR候选上,我们可以获取整体分量,然后将它们集成到基于阈值的融合和重建模块中,以在第三部分中生成整体SR人脸图像。为了估计和学习最佳的集合矩阵,我们提出的ATMFN方法特别考虑了注意重点和集合成分,并将它们重新组合为基于自适应阈值的多模型融合网络。

  • 据我们所知,这是第一次利用注意力机制通过学习自适应融合阈值来利用不同深度学习框架进行图像重建的优势。因此,我们提出了一种基于自适应阈值融合方法的小而压缩人脸图像SR ATMFN。尽管已有许多先前的工作提出使用注意力机制(包括通道注意[19],[28]和像素注意[29])在单个模型中产生不同候选通道或图像区域上的权重矩阵,但我们提出的方法是单独学习的每个候选超级分解器的注意力矩阵都可以获取信息量最大的组件(在模型优势方面),有利于子序列特征融合和SR重建。实验结果证明,我们提出的ATMFN模型优于针对面部幻觉的最新SR方法。此外,该范式可以很容易地推广到其他任务,以提高深度学习的性能。本文的主要贡献如下:

    • 1)我们是第一个通过结合CNN,GAN和RNN提倡基于整体学习的SR框架的工具,从而使我们能够充分利用不同底层深度学习模型的各自优势。所提出的SR框架可以提供精细和真实的通过利用与特定图像分量相对应的候选超级分解器的互补学习优势,在纹理细节上消除人造假象。
    • 2)为了利用候选超级分解器的信息量最大的组件来实现合理融合,我们设计了基于自适应阈值的融合子网络,其中融合矩阵是通过注意力策略学习的。特别是,融合矩阵与基础网络的超参数以端到端的方式进行了优化,从而在准确性和收敛性方面获得了最佳权重。
  • 本文的提醒如下组织。在第二部分中,我们概述了以前的工作,例如面部SR和注意力机制。第三节详细介绍了我们提出的基于自适应阈值的多模型融合SRframework及其优化方法。我们还分别介绍了集成超级分解器以及基于阈值的融合和重构模块的设计细节。实验结果和讨论见第四节。最后,我们在第五节中总结了本文。

结论

  • 在本文中,我们提出了一种新颖的基于自适应阈值的多模型融合网络(ATMFN),用于以整体学习的方式进行微小的压缩面部幻觉,从而使我们能够利用多种候选超级分解器的优势。通过学习对应于特定图像区域的像素方式的最佳注意矩阵,网络趋向于将可用的处理资源偏向信息量最大的组件,从而享受不同底层超级解析器的互补优势。在实验上,我们的整体框架以可信的面部轮廓以及清晰的内容生成最终结果。与最新技术相比,基准人脸数据集上的大量结果显示出显着的优势和泛化能力。
    ATMFN论文阅读笔记_第2张图片

图1.不同深度学习SR模型对重建结果的调查。 “ CNN”,“ GAN”和“ RNN”是指单个SR模型生成的超分辨结果,它们在视觉上的优缺点方面表现出一定程度的协作。 “集合SR”表示通过我们建议的基于自适应阈值的融合机制,通过复合模型(CNN,GAN和RNN)的超分辨人脸
ATMFN论文阅读笔记_第3张图片
图2.提出的基于自适应阈值的多模型融合网络(ATMFN)的概述。红色框中的组件表示具有不同深度学习模型的整体超级分解器。绿框由多个注意力子网组成。 “ C”和⊗分别表示串联和乘法
ATMFN论文阅读笔记_第4张图片
图3.梯度的流程图和反向传播。wni和bnia表示候选超级分解器的模型参数和偏倚(0)。Wni和Bni表示该注意子网学习最优融合权重Wi(i∈N)的权重和偏倚(0)。
ATMFN论文阅读笔记_第5张图片
图4.建议的基于CNN的超级解析器的概述
ATMFN论文阅读笔记_第6张图片
图5.提议的基于GAN的超级分解器的概述
ATMFN论文阅读笔记_第7张图片
图6.提出的基于RNN的超级解析器的概述
ATMFN论文阅读笔记_第8张图片
图7.提出的基于自适应阈值的融合和重构模块的概述
ATMFN论文阅读笔记_第9张图片
图8.超级分解器组合方式的消融研究。

图9. CelebA的重构结果的比例为8,质量比为30。我们选择了几个不同但代表性的样本进行演示

你可能感兴趣的:(论文阅读,人脸超分辨)