文献精读(第二十六篇)——深度拉普拉斯金子塔网络实现快速准确的超分辨率(LapSRN)

一、文献梳理

1、背景

传统方法的问题:

  • 双三次插值预处理增大计算量,同时导致图像出现伪影(常规流程:下采样缩小图像-还原图像大小-超分辨率重构)
  • L2 loss函数会产生模糊的预测
  • 高分辨重建时都基于一个上采样完成,增加了大尺度因子的困难,不能在多个分辨率下生成中间的SR预测

2、研究成果

1)意义

  • 提出一种拉普拉斯金子塔网络结构,每一级金子塔结构以粗糙分辨的图作为输入(低分辨输入,很多方法是利用放大后的图像作为输入),用反卷积进行上采样得到更精细的特征图
  • 利用Charbonnier loss function作为损失函数
  • 通过网络逐步重建产生多尺度预测
  • 在基准数据集上的结构均优于最先进的网络

2)实验结果(优于其他模型)

文献精读(第二十六篇)——深度拉普拉斯金子塔网络实现快速准确的超分辨率(LapSRN)_第1张图片

二、基础讲解

1、图像金字塔

1)定义

图像金字塔是图像中多尺度表达的一种,是一个以多分辨率来解释的有效但概念简单的结构,最初用于机器视觉和图像压缩,一负图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低,且来源于同一张原始图的图像集合。

2)表示

金字塔的底部是待处理图像的高分辨率表示,而顶部是低分辨率的近似。我们将一层一层的图像比喻成金字塔,层级越高,则图像越小,分辨率越低,包含的全局信息越多。底层信息(原始图片)多为局部信息,高层信息为全局信息,两方融合得到更好的图像特征,对图像任务有重要作用。

文献精读(第二十六篇)——深度拉普拉斯金子塔网络实现快速准确的超分辨率(LapSRN)_第2张图片

3)生成方式

  • 向下采样:将图片从G0转化为G1、G2、G3,图像分辨率不断降低的过程(卷积,池化,池化丢弃的特征很多)
  • 向上采样:将图像从G3转化为G2、G1,G0,图像分辨率不断增大的过程(插值、反卷积、反池化)
  • 补充:与池化相比,卷积损失的特征更少;与反卷积相比,反池化可以保存索引对特征的定位能力更强。

文献精读(第二十六篇)——深度拉普拉斯金子塔网络实现快速准确的超分辨率(LapSRN)_第3张图片

4)高斯金字塔 

如果物体的尺寸很小或者说对比度不高,通常则需要采用较高的分辨率来观察。如果物体的尺寸很大或者说对比度很强,那么就仅仅需要较低的分辨率就能够来传观了。那如果现在物体的尺寸有大有小,对比度有强有弱,这些关系同时存在,这个时候我们该采用何种分辨率,就需要图像金子塔。高斯金子塔是最基本的图像塔,用于下采样图像。

文献精读(第二十六篇)——深度拉普拉斯金子塔网络实现快速准确的超分辨率(LapSRN)_第4张图片

5)拉普拉斯金子塔

拉普拉斯金子塔是通过图像减去先缩小后再放大的图像的一系列图像构成的,用金字塔较低的图像重建上采样的图像(分辨率低),即每次都是先下采样在上采样,反复如此,如图:

文献精读(第二十六篇)——深度拉普拉斯金子塔网络实现快速准确的超分辨率(LapSRN)_第5张图片

6)权重共享

卷积层中的权重共享(像素层面):用同一个卷积核对多张图片或同一图片多个地方进行卷积操作提取特征,因为有的特征是具有相似性的,这样用同一个卷积核就节省了很多参数。一张图片每个位置被同样的滤波器进行滤波,权重是一样的,因此共享。

网络中的权重共享(图像层面):当网络存在多输入(多路径时)时,全连接层使用样的权重可以缩减几倍的参数,但确定也比较明显,多路径的网络(如深度图像和彩色图像同时输入,分别走两个路径),深度图像的路径更侧重边界特征,彩色图像更侧重细节特征,此时全连接层使用同一权重是不准确的,会导致一个途径的特征丢失。

7)经典算法

文献精读(第二十六篇)——深度拉普拉斯金子塔网络实现快速准确的超分辨率(LapSRN)_第6张图片

三、论文重点

1、创新

  • 采样残差结构和上采样滤波器,有效抑制了‘bicubic’引起的重构伪影,降低了计算复杂度
  • 参与新的损失函数,提高了重建的准确性
  • 采样逐级重建高分辨率图像,参数共享

2、模型结构

说明:红色箭头为卷积操作,方块为卷积层,蓝色箭头为反卷积,绿色箭头为融合操作。当保持图像大小不变的一系列卷积操作称为网络的一个阶段。

文献精读(第二十六篇)——深度拉普拉斯金子塔网络实现快速准确的超分辨率(LapSRN)_第7张图片

 特征提取分支:在每个level,采用一系列卷积层和一个转置卷积上采样之后会连接两个不同的层,一个为目前level的重建残差图像。另一个输入到下个level。

图像重建分支:采用bilinear对重建重建转置卷积进行初始化,再将输入的LR图像(level)通过转置卷积上采样与当前level的重建残差图像按元素求和,得到当前level的高分辨率重建图像,输入下一level的图像重建分支,LapSRN总共有三个level,经过一个level,HR图像放大两倍,因此可以产生2*,4*,8*的多尺度高分辨率图像。

3、损失函数

x_{s}^{i}为输入的低分辨率图像,y_{s}^{i}为重建的HR图像,\overline{y}_{s}^{i}是标签(解释:论文中某一实验采用91张自然图像作为训练数据集,对训练集中的图像先缩小到低分辨率尺寸,再将其放大到目标放大尺寸,最后切割成诸多33×33图像块作为训练数据,作为标签数据的则为图像中心的21×21图像块(与卷积层细节设置相关))。

文献精读(第二十六篇)——深度拉普拉斯金子塔网络实现快速准确的超分辨率(LapSRN)_第8张图片

注: 高分辨率重建的每一次level,进行一次loss函数计算,三次loss计算,再把loss相加。

4、网络细节 

1)训练集数据增强

  • 随机缩小尺寸在【0.5,1】之间
  • 随机旋转90度、180度、270度
  • 以0.5的概率水平或垂直翻转

2)测试集

  • set5、Set14 、BSD100自然场景图像、Urban100城市场景图像、MANGA109日本动漫图像

3)参数设置

每个卷积层的卷积核大小都是3*3,通道为64;转置卷积核大小为4*4,除了高分辨率重建层,所有卷积以及转置卷积后面都有激活函数LReLu(参数是0.2)。

4)模型分析

  • Residual:移除重建分支进行无Residual的实验,Robust+Pyramid与Residual+Robust+Pyramid(直接放到图像)

文献精读(第二十六篇)——深度拉普拉斯金子塔网络实现快速准确的超分辨率(LapSRN)_第9张图片

  • Loss:Residual+Robust+Pyramid与Residual+L2+Pyramid对比
  • Pyramid:Residual+Robust+Pyramid与Residual+Robust对比(取消特征提取分支)

文献精读(第二十六篇)——深度拉普拉斯金子塔网络实现快速准确的超分辨率(LapSRN)_第10张图片

  • depth:对比不同深度网络对PSNR和时间的影响
  • IFC:信息保真度准则,它被证明与人类对图像超分辨率的感知密切相关

你可能感兴趣的:(文献阅读笔记(CNN,CV),计算机视觉,深度学习)