VDSR阅读笔记

VSDR主要解决了从给定的一个LR图像(一般是指SISR)生成HR图像的问题。SISR广泛用于计算机视觉应用,从安全和监视成像到医学成像这些需要更多图象细节的地方。

由SRCNN的作者DONG等人所提出的方法成功证明了CNN可以被用来学习LR到HR端到端的映射。但是本篇作者发现SRCNN被局限于三个方面:太过依赖于小图像区域的背景信息,收敛太慢,而且模型这能用于单缩放倍数,想更换缩放倍数还需要重新训练。所以在这篇文章里作者便提出了一个新的方法用来解决这些问题。

1.如果缩放倍数过大,通常小patch所包含的信息不够进行足够的细节恢复,所以作者所提出的使用大型视野域的VDSR模型非常重视大patch所包含的图像信息。

2.因为LR和HR图像很大程度上共享相同的信息,所以明确的对残差建模是非常有效的。作者提出了一个输出和输入高度对应的有效率的模型,初始学习率是SRCNN的倍。由于高学习率所导致的爆炸性梯度问题作者利用残差学习和梯度限幅来解决。

提出SRCNN的DONG等人曾经尝试过增加模型深度,但是最后并未得出结论,作者则采用了20层小过滤器深度卷积,取得效果非常不错。由于每层卷积都有padding操作,所以VDSR输出图像与输入图像是相同的,并且由于在所有层使用相同的学习率,VDSR的收敛结果相对稳定。

另外,从SRCNN,FSRCNN,ESPCN到VDSR,因为SR本质就是从LR中找与HR的联系,最后生成新的SR,这里所有的LR图象都是从原图中进行下采样然后得到的低分辨率图像,方便对比,目前所有模型的比较方法是PSNR(峰值信噪比)的大小,当然有时候PSNR的改变并不会明显带来视觉上的明显区别,甚至会出现PSNR得分高而图像噪点多的情况。

作者总结的3个重要点:

1.越深越好:在网络中每层都使用了3×3的过滤器,第一层的视野域是3×3,之后的19层视野域为(2D×1)×(2D×1),尺寸与层的深度成比例

2.残差学习:首先,作者发现残差网络收敛非常快,并且可以得到非常高的PSNR值,如果使用小学习率,网络将永远无法达到与0.1相同的性能水平,差距非常大,于是加入了残差网络计算。(初始学习率设置为0.1,weight decay设置为0.0001)

3.单模型来处理多种缩放倍数:作者用不同的缩放因子训练模型,最后发现由(×缩放因子)训练的模型对(×缩放因子)的测试表现更好。

 

 

 

你可能感兴趣的:(VDSR阅读笔记)