RCAN(Image Super-Resolution Using Very Deep Residual Channel Attention Networks)

(84条消息) RCAN论文笔记:Image Super-Resolution Using Very Deep Residual Channel Attention Networks_ytao_wang的博客-CSDN博客_rcan论文

Abstract.

卷积神经网络(CNN)深度是图像超分辨率的关键。然而,我们观察到用于图像SR的更深的网络更难以训练。低分辨率的输入和特征包含了丰富的低频信息,这些信息在不同的通道上被同等对待,从而阻碍了神经网络的表示能力。为了解决这些问题,提出了极深剩余信道注意网络(very deep residual channel attention networks,RCAN).具体地说,我们提出了一种残差中残差(RIR)结构来形成非常深的网络,该网络由多个具有长跳跃连接的残差组组成。每个残差组包含一些具有短跳过连接的残差块。同时,RIR允许大量的低频信息通过多个跳跃连接被旁路,使得主网络专注于学习高频信息。此外,我们提出了一个通道注意机制,通过考虑通道之间的相互依赖性,自适应地重新缩放通道特征。大量的实验表明,与现有的方法相比,我们的RCAN取得了更好的准确性和视觉效果。

1 Introduction

我们解决了在给定低分辨率(LR)图像的情况下重建精确高分辨率(HR)图像的问题,通常称为单幅图像超分辨率(SR)[8]。图像SR用于各种计算机视觉应用,范围从安全和监控成像[45]、医学成像[33]到对象识别[31]。然而,图像SR是不适定问题,因为对于任何LR输入存在多个解。为了解决这样的逆问题,已经提出了许多基于学习的方法来学习LR和HR图像对之间的映射。

最近,基于深度卷积神经网络(CNN)的方法[5,6,10,16,19,20,23,31,34,35,39,42 -44]已经实现了对传统SR方法的显著改进。其中,Dong等[4]首先针对图像SR引入了三层CNN,提出了SRCNN,Kim等在VDSR [16]和DRCN [17]中将网络深度提高到20,较SRCNN有了显著的改进。网络深度被证明对于许多视觉识别任务至关重要,特别是当He等人[11]提出残差网络(ResNet)时。这种有效的残差学习策略随后被引入到许多其他基于神经网络的图像SR方法中[21,23,31,34,35]。Lim等人[23]利用简化的残差块建立了一个很宽网络的EDSR和一个很深网络的MDSR。EDSR和MDSR在性能上的显著提高表明,表示深度对图像SR至关重要,然而,据我们所知,简单地堆叠残差块来构造更深的网络很难获得更好的改善。更深层次的网络是否能进一步促进图像SR以及如何构建非常深的可训练网络仍有待探索。

另一方面,最新的基于CNN的方法[5,6,16,19,20,23,31,34,35,39,43]同等地对待通道式特征,这在处理不同类型的信息时缺乏灵活性。图像SR可以被看作是一个过程,其中我们试图恢复尽可能多的高频信息。LR图像包含大部分低频信息,可直接转发至最终HR输出。然而,主流的基于神经网络的方法对每个通道的特征都一视同仁,缺乏跨特征通道的区分学习能力,阻碍了深度网络的表征能力。

为了解决这些问题,提出了一种残差信道注意网络(RCAN),以获得深度可训练网络,同时自适应学习更多有用的信道特征。为了便于训练非常深的网络(例如,超过400层),我们提出残差中残差(RIR)结构,其中残差组(RG)作为基本模块,长跳连接(LSC)允许粗略级别的残差学习。在每个RG模块中,我们使用短跳跃连接(SSC)堆叠若干简化的残差块[23]。长短跳跃连接以及残差块中的捷径允许大量的低频信息通过这些基于身份的跳跃连接被旁路,这可以简化信息流动。进一步,我们提出通道注意机制,借由建立通道间的相依性模型,自适应地重新调整每个通道的特征。这种CA机制使得我们提出的网络能够集中在更有用的信道上,增强了区分学习能力。如图1所示,与最先进的方法相比,我们的RCAN实现了更好的视觉SR结果。

总体而言,我们的贡献有三个方面:(1)提出了用于高精度图像SR的极深残差信道注意网络(RCAN)。(2)提出了残差中残差(RIR)结构来构造极深可训练网络。(3)提出了通道关注度(CA)机制,通过考虑特征通道之间的相互依赖性,自适应地对特征进行尺度重定。

2 Related Work

计算机视觉界已经研究了许多图像SR方法[5、6、13、16、19、20、23、31、34、35、39、43]。注意机制在高级视觉任务中很受欢迎,但在低级视觉应用中很少研究[12]。由于篇幅所限,本文主要介绍了神经网络方法和注意机制的相关研究。

Deep CNN for SR.

Dong等人[4]进行了开创性工作,他提出了用于图像SR的SRCNN,并实现了优于先前工作的性能。SRCNN在VDSR [16]和DRCN [17]中得到进一步改进。这些方法首先将LR输入插值到期望的大小,这不可避免地丢失了一些细节,并且大大增加了计算量。从原始的LR输入中提取特征并在网络尾部提升空间分辨率成为深度架构的主要选择。为了加快SRCNN的训练和测试速度,提出了一种更快的网络结构FSRCNN [6]。Ledig等人[21]引入了ResNet [11]来构建具有感知损失的更深网络[15]和用于照片真实感SR的生成对抗网络(GAN)[9]。然而,这些方法大多具有有限的网络深度,这在视觉识别任务中被证明是非常重要的[11]。此外,这些方法中的大多数同等地对待通道式特征,阻碍了对不同特征的更好区分能力。

Attention mechanism.

一般来说,注意力可以被视为一种指导,将可用处理资源的分配偏向于输入中信息量最大的部分[12]。最近,已经提出了尝试性的工作来将注意力应用到深度神经网络[12,22,38],范围从图像中的定位和理解[3,14]到基于序列的网络[2,26]。它通常与门控功能相结合(例如,S形)以重新缩放特征图。Wang等人[38]提出了一种基于主干和掩码注意机制的图像分类残差注意网络。Hu等人[12]提出了挤压和激励(SE)块来对通道关系进行建模,以获得图像分类的显著性能改进。然而,很少有人提出研究注意对低水平视觉任务的影响(例如,图像SR)。

RCAN(Image Super-Resolution Using Very Deep Residual Channel Attention Networks)_第1张图片

3 Residual Channel Attention Network (RCAN)

3.1 Network Architecture

如图2所示,我们的RCAN主要由四部分组成:浅层特征提取、残差中残差(RIR)深层特征提取、放大模块和重建部分。我们将ILR和ISR表示为RCAN的输入和输出。如在[21,23]中所研究的,我们仅使用一个卷积层(Conv)来从LR输入提取浅特征F0

其中HSF(·)表示卷积运算。F0然后用于RIR模块的深度特征提取。所以我们可以进一步

其中HRIR(·)表示我们提出的残差结构中的非常深的残差,它包含G个残差群(RG)。据我们所知,我们提出的RIR达到了迄今为止最大的深度,并提供了非常大的感受野大小。因此,我们将其输出视为深度特征,然后通过放大模块进行放大

其中,HUP(·)和FUP分别表示上采样模块和上采样特征。

有几种选择可用作上采样模块,如去卷积层(也称为转置卷积)[6]、最近邻上采样+卷积[7]和ESPCN [32]。这种后放大策略已经被证明在计算复杂度和实现更高性能方面比预放大SR方法更有效(例如,DRRN [34]和记忆网络[35])。然后,通过一个Conv图层重建上采样后的特征

其中HREC(·)和HRCAN(·)分别表示重构层和RCAN的功能。

RCAN(Image Super-Resolution Using Very Deep Residual Channel Attention Networks)_第2张图片

3.2 Residual in Residual (RIR)

我们现在给予我们提出的RIR结构的更多细节(见图2),它包含G残基(RG)和长跳跃连接(LSC)。每个RG还包含具有短跳跃连接(SSC)的B个剩余信道注意块(RCAB)。残差结构中的这种残差允许以高性能训练用于图像SR的非常深的CNN(超过400层)。

在[23]中已经证明,可以使用堆叠的残差块和LSC来构造深部CNN。在视觉识别中,残差块[11]可以被堆叠以实现多于1,000层的可训练网络。然而,在图像SR中,用这种方法构建的深度网络存在训练困难,难以获得更大的性能增益。受SRRestNet [21]和EDSR [23]的启发,我们提出了残差群(RG)作为更深层次网络的基本模块。第g组中的RG公式为

其中Hg表示第g个RG的函数。Fg−1和Fg是第g个RG的输入和输出。我们观察到,简单地堆叠许多RG将无法实现更好的性能。为了解决这一问题,在RIR中进一步引入长跳连接(LSC),以稳定极深网络的训练。LSC还通过以下方式利用残差学习实现更好的性能

其中WLSC是在RIR的尾部设置给Conv层的权重。为简单起见,省略了偏置项。LSC不仅可以简化信息在RG之间的流动,而且只能使RIR在粗略的水平上学习残差信息。

如第一节所讨论的,LR输入和特征中包含了大量丰富的信息,SR网络的目标是恢复更多有用的信息。通过基于身份的跳连接可以旁路掉大量的低频信息。为了进一步进行残差学习,我们在每个RG中堆叠B个残差信道关注块。第g个RG中的第b个残留信道注意块(RCAB)可以被公式化为

其中Fg,B−1和Fg,b是第g个RG中第b个RCAB的输入和输出。相应的函数用Hg,B表示。为了使主网络更加关注信息量更大的特征,引入了短跳连接(SSC),以通过获得块输出

其中Wg是在第g个RG的尾部设置给Conv层的权重。SSC还允许网络的主要部分学习残差信息。使用LSC和SSC,在训练过程中更容易绕过更丰富的低频信息。为了向更具区分性的学习进一步迈进,我们更加关注具有通道注意的通道式特征重标度。

3.3 Channel Attention (CA)

以往基于神经网络的SR方法对LR信道特征一视同仁,对真实的情况不灵活。为了使网络关注更多信息特征,我们利用特征通道之间的相互依赖性,产生了通道关注(CA)机制(见图3)。

如何为每一个频道的特色产生不同的关注是关键的一步。在这里我们主要有两点关注:首先,LR空间中的信息具有丰富的低频分量和有价值的高频分量。低频部分似乎更平坦。高频成分通常是区域,充满了边缘、纹理和其他细节。另一方面,Conv层中的每个过滤器都与局部感受野一起工作。因此,卷积之后的输出不能利用局部区域之外的上下文信息。

RCAN(Image Super-Resolution Using Very Deep Residual Channel Attention Networks)_第3张图片
RCAN(Image Super-Resolution Using Very Deep Residual Channel Attention Networks)_第4张图片

其中xc(i,j)是第c个特征xc在位置(i,j)处的值。HGP(·)表示全局合并函数。这种通道统计可以被看作局部描述符的集合,其统计有助于表示整个图像[12]。除了全局平均汇集之外,这里还可以引入更复杂的汇总技术。

为了通过全局平均池从聚合信息中完全捕获通道相关性,我们引入了门控机制。如[12]中所述,门控机制应满足两个标准:首先,它必须能够学习通道之间的非线性相互作用。第二,由于可以强调多个通道特征而不是一个热点激活,因此它必须学习非互斥关系。在这里,我们选择利用简单的门控机制与sigmoid函数

其中f(·)和δ(·)分别表示S形门控和ReLU [27]函数。WD是Conv层的权重集合,其充当具有缩减比率r的信道缩减。在被ReLU激活之后,低维信号然后由信道上缩放层以比率r增加,信道上缩放层的权重集是WU。然后,我们获得最终的信道统计信息s,其用于重新缩放输入xc

其中sc和xc是第c个通道中的缩放因子和特征图。在信道关注的情况下,RCAB中的残差分量被自适应地重新缩放。

RCAN(Image Super-Resolution Using Very Deep Residual Channel Attention Networks)_第5张图片

3.4 Residual Channel Attention Block (RCAB)

如上所述,残差组和长跳跃连接允许网络的主要部分集中于LR特征的更多信息分量。信道关注度提取信道间的信道统计信息,进一步增强网络的区分能力。

你可能感兴趣的:(SR,算法)