WDSR:Wide Activation for Efficient and Accurate Image Super-Resolution

Wide Activation for Efficient and Accurate Image Super-Resolution

Jiahui Yu,Yuchen Fan,Jianchao Yang,Ning Xu,Zhaowen Wang,Xinchao Wang,Thomas Huang

本文是NTRIE2018年超分辨率比赛的冠军。

主要贡献

  1. 论文提出在激活函数前with expand feature可以使更多信息通过,提升网络性能,基于此提出WDSR-A。
  2. 论文使用linear low-rank convolution作为基本的模块,提出WDSR-B。
  3. 论文发现weight normalization对SR问题有改进。

WDSR-A

论文发现如果直接增加激活函数前的通道数,在不引入更多参数的情况下,对网络性能的提升没有任何作用。于是论文为了保证复杂度不上升,同时还加宽激活函数前的通道数,提出了一种先使通道数变窄再加宽的方法,提出了WDSR-A。

WDSR:Wide Activation for Efficient and Accurate Image Super-Resolution_第1张图片

 WDSR-A的残差块结构如中间的图,和左边的图RB比较,可以看出它把第一个卷积层变窄,而把激活函数前面的卷积层变宽了。假设第一个卷积层的宽度为w_{1},激活函数前的卷积层宽度为w_{2},在RB中w_{1}=w_{2},在WDSR-A RB中使w_{2}=r \times w_{1},RB的计算复杂度:2 \times w_{1}^{2} \times k^{2},WDSR-A RB的复杂度是2\times w_{1}^{wdsr-a}\times r \times w_{1}^{wdsr-a} \times k^{2},为了保证二者复杂度一致,使w_{1}^{wdsr-a}=\frac{1}{\sqrt{(r)}}w_{1}

实验表明,在超分辨率的时候,r在2-4之间效果最好,如果r再继续变大,会导致第一个卷积层的通道数过低,造成效果不好。于是论文提出了WDSR-B。

WDSR-B

为了解决上述问题,论文保持残差块的第一个卷积层通道数不变,论文提出的WDSR-B利用1 \times 1的卷积层来扩大通道数和缩小通道。与此同时,论文提出了linear low-rank convolution,即将一个宽的卷积层用两个low-rank卷积层来表示。如上图中的右图,激活函数后面的第一个1 \times 1卷积层用来减少通道数,3 \times 3的卷积层用于spatial-wise 特征提取。

Weight Normalization

首先论文提出BN的三个问题:

  1. 在超分辨率问题中,通常输入数据patch较小,batch也较小,这些batch的均值和方差差异较大,使用BN会造成网络不稳定。
  2. BN可以看做是一个正则化,但是SR问题很少会发生过拟合的现象,正则化并不适用于SR。
  3. 在训练和测试的时候,BN的处理是不同的,这可能会降低模型的效率。

论文提出的WN(Weight Normalization)是对参数的一种将参数向量的长度和方向分离的再参数化(基于前人的WN的研究:权重的方向和长度的分离可以加速网络收敛过程。),即

w = \frac{g}{\left \| v \right \|}v

其中v是跟w同一空间的向量,g是标量,\left \| v\right \|是向量的欧式范数。

网络结构

WDSR:Wide Activation for Efficient and Accurate Image Super-Resolution_第2张图片

相比于EDSR的网络结构,论文做了两点改进。

  1. 论文认为EDSR的残差body后的卷积层是冗余的而且耗计算量,论文用一个5 \times 5的卷积层替换掉它们,减少了计算量,同时在实验中也发现这不会影响网络的性能。
  2. 论文发现现有的方法都会在上采样之后还有卷积层,即利用上采样之后的特征,而论文直接利用低分辨率图像的信息,舍弃上采样后的信息,实验证明这不仅不会降低网络性能反而提高网络性能。

实验结果

数据集:DIV2K,800训练,10个验证,100个测试

实验细节:RGB通道计算psnr,Adam,\beta _{1}=0.9,\beta_{2}=0.999,\varepsilon =10^{-8}batch\,size=16,有WN的学习率是10^{-3},没有WN的学习率是10^{-4},每2 \times 10^{5}次迭代,学习率减半。patch\,size=96\times 96,LR是HRbicubic下采样得到的,训练时随机翻转和旋转数据,训练时,所有的数据均减去了均值。

WDSR:Wide Activation for Efficient and Accurate Image Super-Resolution_第3张图片

WDSR:Wide Activation for Efficient and Accurate Image Super-Resolution_第4张图片

你可能感兴趣的:(图像超分辨率)