esrgan_论文阅读 | 图像超分(七) RFB-ESRGAN

esrgan_论文阅读 | 图像超分(七) RFB-ESRGAN_第1张图片

Perceptual Extreme Super Resolution Network with Receptive Field Block

Perceptual Extreme Super Resolution Network with Receptive Field Block​openaccess.thecvf.com

NTIRE2020极限超分赛道的冠军~

提出了2个可以参考的超分结构和1个模型增强方案!


解决的问题

极限超分需要解决纹理细节问题。

本文提出了3个改进点:

  1. 引入 Receptive Field Block (RFB) 到超分中,平衡小计算量和大感受野的问题,能抽取很细节的特征(RFB在目标检测、图像识别上已经验证过其强大能力);
  2. 交替使用 Nearest Neighborhood Interpolation (NNI) 和 Sub-pixel Convolution (SPC) 的上采样操作实现
    的超分,实现
    空间信息和深度信息的良好交融,不至于极限超分而损失细节性能。
  3. 使用权重平均的方法,对训练过程中10个优质模型进行融合,提升模型抗噪能力和鲁棒性

最终将改进的模型,在ESRGAN的框架下应用。

算法细节

  • 整体结构

整体和ESRGAN一致。

esrgan_论文阅读 | 图像超分(七) RFB-ESRGAN_第2张图片
Head + Body with long shortcut connection + Tail

先使用一层

卷积抽取特征。

Trunk-A是原ESRGAN中RRDB结构,论文使用16个block,每个block由5层卷积组成:

esrgan_论文阅读 | 图像超分(七) RFB-ESRGAN_第3张图片
RRDB:dense connection + residual scaling + small initialization

Trunk-B就是引入RFB后的RRFDB (Residual of Receptive Field Dense Block) 结构,论文使用8个block,每个block由5层RFB组成:

esrgan_论文阅读 | 图像超分(七) RFB-ESRGAN_第4张图片
就只是把RRDB中的conv层换成RFB层

上采样部分,先使用一层RFB进行特征融合,然后交替使用 Nearest Neighborhood Interpolation (NNI) 和 Sub-pixel Convolution (SPC) 的上采样操作,每次上采样后会接上一层RFB和LReLU。最后接上两层

卷积。

esrgan_论文阅读 | 图像超分(七) RFB-ESRGAN_第5张图片
上采样部分

整体数学表示为:

  • Receptive Field Block (RFB)

和原始的RFB结构基本一致:

  1. 去掉BN层;
  2. 最后的ReLU使用LReLU;
  3. shortcut使用residual scaling;
  4. 结构微调。
The most important reason to use RFB is the ability of extracting the very detailed features, which is exactly what is needed in the field of image reconstruction.

esrgan_论文阅读 | 图像超分(七) RFB-ESRGAN_第6张图片
本论文使用的RFB层

esrgan_论文阅读 | 图像超分(七) RFB-ESRGAN_第7张图片
原始RFB论文提出的结构
  • 上采样模块 Upsampling Module

Nearest Neighborhood Interpolation (NNI) 对输入特征起到空间转换的作用,然后接RFB层将其空间影响在深度上扩散。Sub-pixel Convolution (SPC) 发挥深度到空间的变换,然后接RFB层将该变换在空间范围内增强。

Use them alternately will improve the information communication between space and depth. Also, the use of SPC will reduce the amount of parameters and time complexity.
  • 损失函数

损失函数和ESRGAN一致。

G网络损失函数:

D网络损失函数为:

论文设置

  • 模型集成

从GAN训练阶段保存的最好感知指标的模型中,取最近的10个模型进行融合:

可以有效降低噪声,对不同的图像更加鲁棒。实验过20和30,效果稍微下降。

实验设置

训练集:

HR图像结果MATLAB bicubic插值得到缩小16倍的
LR图像。包含高清图像数据集:800张DIV2K,2650张Flickr2K,785张OST dataset。(数据多样性很重要,在其他SR实验验证过)

训练参数设置:

batch size为16。Adam

  1. 用PSNR-oriented方式预训练生成网络,学习率
    ,每隔
    个mini-batch缩小2倍;
  2. 用GAN-based微调,学习率
    ,每
    迭代缩小2倍;

实验结果对比

消融实验:

上采样只用SPC(第2列),细节会 too sharp,有点假;

上采样只用NNI(第3列),细节会 too blurry,不清晰;

交替使用SPC和NNI(第4列)可以达到比较好的效果;

使用RFB(第5列),线条会更加细致和平滑;

使用集成模型(第6列),整体更加鲁棒,去噪。

esrgan_论文阅读 | 图像超分(七) RFB-ESRGAN_第8张图片

esrgan_论文阅读 | 图像超分(七) RFB-ESRGAN_第9张图片
SPC、NNI、RFB、ensemble 消融分析

esrgan_论文阅读 | 图像超分(七) RFB-ESRGAN_第10张图片
不同算法的对比

esrgan_论文阅读 | 图像超分(七) RFB-ESRGAN_第11张图片
不同算法的效果对比

你可能感兴趣的:(esrgan)