2018ECCV
摘要:由来:越深的超分辨神经网络越难训练。以低分辩图像作为输入其特征包含了大量的低频信息,在不同的特征通道下其被同等对待,这种情况阻碍了神经网络的表达能力,为解决此问题,本文提出了深度残差通道注意力网络RCAN,本文提出了残差中的残差结构RIR构建深度网络,其包含了数个含有长跳跃链接的残差组,每个残差组包含了数个有短跳跃链接的残差块。另外,RIR通过多个跳跃链接能够过滤大量的低频信息,使主网络专注于高频信息的提取。
基于深度学习的方法比传统方法有了明显的改进,过去的研究证明了深度对于图像超分辨的重要性,但简单的堆叠残差块构建的网络很难达到很好的效果,更深的网络是否能够对图像超分辨有所贡献以及如何构建非常深的可训练网络仍然需要研究。
另外,大多数基于CNN的方法对不同的特征通道采取相同的措施,缺乏处理不同信息的灵活性,图像超分辨问题可以看作一个尽可能恢复高频信息的过程,以LR为输入会直接前向传播到最终的HR中,而基于CNN的方法对所有通道的特征一视同仁,缺乏对不同通道特征判别性的学习能力,阻碍了深度网络的表达能力。
为实际的解决此问题,本文提出了残差通道注意力网络RCAN,以获得更深的可训练网络且能够自适应的学习更有利的通道特征,本文提出了RIR机构来过滤低频信息,更进一步,本文提出了通道注意力机制CA通过对特征通道之间的相关性建模自适应的对通道特征进行调整,此CA能使网络关注更有效的信息,加强判别性学习的能力,如下图所示,本文的贡献共有以下3点:
1.提出了RCAN用于更高精度的超分辨
2.提出了RIR结构构建非常深的可训练网络
3.提出了CA机制自适应的调整不同通道的特征
Attention mechanism: 注意力通常可视为将有效的资源偏向信息量更大部分的引导。最近研究中尝试性的将注意力应用到深度网络中,从图像中的定位和理解到基于序列的网络,通常将其于选通函数一起用于调整特征映射,Hu等人提出的SEnet压缩激励网络用于对特征通道间进行建模获得对图像分类任务性能的提高,但很少有研究将注意力机制用于低级的图像处理任务。
如上图所示,本文的RCAN主要由四个部分组成,浅层的特征提取,残差中的残差深度结构,上采样模块,重构模块,表示 I L R 和 I S R I_{LR}和I_{SR} ILR和ISR分别表示输入输出,本文使用的一个简单的卷积层提取浅层特征:
F 0 = H S F ( I L R ) F_{0}=H_{SF}(I_{LR}) F0=HSF(ILR)
本文的RIR结构提取过程如下:
F D F = H R I R ( F 0 ) F_{DF}=H_{RIR}(F_{0}) FDF=HRIR(F0)
H R I R ( . ) H_{RIR}(.) HRIR(.)表示本文的残差中的残差结构,其包含了G个残差组,且在当时达到了最大的深度,并且提供了非常大的感受野,最终通过一个上采样模块进行放大:
F U P = H U P ( F D F ) F_{UP}=H_{UP}(F_{DF}) FUP=HUP(FDF)
最终的重建通过一个卷积层:
I S R = H R E C ( F U P ) = H R C A N ( I L R ) I_{SR}=H_{REC}(F_{UP})=H_{RCAN}(I_{LR}) ISR=HREC(FUP)=HRCAN(ILR)
本文的损失函数选择了 L 1 L_{1} L1如下:
L ( Θ ) = 1 N ∑ i = 1 N ∣ ∣ H R C A N ( I L R i ) − I H R i ∣ ∣ 1 L(\Theta)=\frac{1}{N}\sum^{N}_{i=1}||H_{RCAN}(I^{i}_{LR})-I^{i}_{HR}||_{1} L(Θ)=N1∑i=1N∣∣HRCAN(ILRi)−IHRi∣∣1
本文的RIR结构包含了G个残差组和长跳跃链接(LSC),每个RG进一步由B残差注意力模块组成(RCAB),其中包含了数个短的跳跃链接(SSC),如此构成的网络能够达到非常深的深度(超过400层)。
虽然在图像识别领域,可以通过堆叠残差块达到非常高的性能,但在图像超分辨领域太深的网络会导致训练困难且很难达到更好的性能,本文的残差组结构中第G个块如下所受:
F g = H g ( F g − 1 ) = H g ( H g − 1 ( . . . H 1 ( F 0 ) . . . ) ) F_{g}=H_{g}(F_{g-1})=H_{g}(H_{g-1}(...H_{1}(F_{0})...)) Fg=Hg(Fg−1)=Hg(Hg−1(...H1(F0)...))
此公式中的 H g H_{g} Hg表示第g个RG, F g − 1 F_{g-1} Fg−1和 F g F_{g} Fg分别是输入和输出,但简单的堆积残差组并不能获得更好的性能,为此,本文采用了LSC结构,如下
F D F = F 0 + W L S C F G = F 0 + W L S C H g ( H g − ( . . . H 1 ( F 0 ) . . . ) ) F_{DF}=F_{0}+W_{LSC}F_{G}=F_{0}+W_{LSC}H_{g}(H_{g-}(...H_{1}(F_{0})...)) FDF=F0+WLSCFG=F0+WLSCHg(Hg−(...H1(F0)...)),本文的卷积层为了简单,省略了偏置项,LSC不止方便RG之间的信息传播,而且能够学习到残差信息。
低分辩输入包含丰富的信息且超分辨的目标是恢复更多的有用信息,那么需要通过恒等映射过滤掉一些低频信息,为进一步进行残差学习,本文在每个RG中堆叠了B个残差注意力块,第g个残差组的第b个块表示如下:
F g , b = H g , b ( F g , b − 1 ) = H g , b ( H g , b − 1 ( . . . H g , 1 ( F g − 1 ) . . . ) ) F_{g,b}=H_{g,b}(F_{g,b-1})=H_{g,b}(H_{g,b-1}(...H_{g,1}(F_{g-1})...)) Fg,b=Hg,b(Fg,b−1)=Hg,b(Hg,b−1(...Hg,1(Fg−1)...))
另外为将主网络的注意力放在信息性更强的特征上,在每个块中引入了短链接:
F g = F g − 1 + W g F g , B = F g − 1 + W g H g , B ( H g , B − 1 ( . . . H g , 1 ( F g − 1 ) . . . ) ) F_{g}=F_{g-1}+W_{g}F_{g,B}=F_{g-1}+W_{g}H_{g,B}(H_{g,B-1}(...H_{g,1}(F_{g-1})...)) Fg=Fg−1+WgFg,B=Fg−1+WgHg,B(Hg,B−1(...Hg,1(Fg−1)...)) 通过短链接和长链接本文的结构可以过滤大量的低频信息,进一步的获得判别性更强的信息,更关注通道特征的调整。
残差组和长跳跃链接让整个网络集中于提取更有信息性的低分辩特征,通道注意力提取到不同通道之间的统计信息,进一步加强了网络的判别能力,
同时,本文将通道注意力模块放在了残差块中,如下所示:
F g , b = F g , b − 1 + R g , b ( X g , b ) . X g , b F_{g,b}=F_{g,b-1}+R_{g,b}(X_{g,b}).X_{g,b} Fg,b=Fg,b−1+Rg,b(Xg,b).Xg,b
这 R g , b R_{g,b} Rg,b表示通道注意力, X g , b X_{g,b} Xg,b表示通过两个卷积层得到的残差部分,
X g , b = W 2 g , b δ ( W g , b 2 F g , b − 1 ) X_{g,b}=W_{2}^{g,b}\delta(W_{g,b}^{2}F_{g,b-1}) Xg,b=W2g,bδ(Wg,b2Fg,b−1)
本文分析了RCAB和RB之间的关系,发现在MDSR中的残差块可以视为RCAB的变种,但RB中没有调整残差的操作,在RCAB中本文设置了 R g , b R_{g,b} Rg,b为1,而在EDSR中为0.1,本文与之相同设置为0.1,尽管通道调整操作调整了非常宽的网络,但在EDSR中没有考虑通道之间的依赖性,