经典网络结构梳理:Resnet深度残差网络结构

说到深度学习一般网络结构越深网络的效果就会越好。因为越深的网络可以得到更多的语义信息。

经典网络结构梳理:Resnet深度残差网络结构_第1张图片

上图可以看出来随着网络结构的加深网络的分类,识别效果也就越好。事实是这样吗?人们对chan常规的网络直接堆叠很多层,经对图像jin进行检测,训练集,测试集的误差结果如下图:

经典网络结构梳理:Resnet深度残差网络结构_第2张图片

通过下图可以看出来随着网络的加深50层的效果要比20层的效果差很多。通过实验可以发现:随着网络层级的不断增加,模型精度不断得到提升,而当网络层级增加到一定的数目以后,训练精度和测试精度迅速下降,这说明当网络变得很深以后,深度网络就变得更加难以训练了。

问题:为什么随着网络的加深跟踪效果会越来越差呢?

网络是由输入层,隐藏层,输出层组成,误差值的定义为:

经典网络结构梳理:Resnet深度残差网络结构_第3张图片

根据误差结果,利用著名的“链式法则”求偏导,使结果误差反向传播从而得出权重w调整的梯度。

经典网络结构梳理:Resnet深度残差网络结构_第4张图片

通过不断迭代,对参数矩阵进行不断调整后,使得输出结果的误差值更小,使输出结果与事实更加接近。

从上面的过程可以看出,神经网络在反向传播过程中要不断地传播梯度,而当网络层数加深时,梯度在传播过程中会逐渐消失(假如采用Sigmoid函数,对于幅度为1的信号,每向后传递一层,梯度就衰减为原来的0.25,层数越多,衰减越厉害),导致无法对前面网络层的权重进行有效的调整。

为解决以上问题就需要我们的深度残差网络(Deep Residual Network,简称DRN)

前面已经提到随着网络的加深,我们的网络的准确率会不断地提升然后达到饱和,最后会逐渐地降低。如下图所示·:

经典网络结构梳理:Resnet深度残差网络结构_第5张图片

      那么我们作这样一个假设:假设现有一个比较浅的网络已达到了饱和的准确率,这时在它后面再加上几个恒等映射层(Identity mapping,也即y=x,输出等于输入),这样就增加了网络的深度,并且起码误差不会增加,也即更深的网络不应该带来训练集上误差的上升。而这里提到的使用恒等映射直接将前一层输出传到后面的思想,便是著名深度残差网络ResNet的灵感来源。

       ResNet引入了残差网络结构(residual network),通过这种残差网络结构,可以把网络层弄的很深(据说目前可以达到1000多层),并且最终的分类效果也非常好,残差网络的基本结构如下图所示,很明显,该图是带有跳跃结构的:

经典网络结构梳理:Resnet深度残差网络结构_第6张图片

       回想前面的假设,如果已经学习到较饱和的准确率(或者当发现下层的误差变大时),那么接下来的学习目标就转变为恒等映射的学习,也就是使输入x近似于输出H(x),以保持在后面的层次中不会造成精度下降。

       在上图的残差网络结构图中,通过“shortcut connections(捷径连接)”的方式,直接把输入x传到输出作为初始结果,输出结果为H(x)=F(x)+x,当F(x)=0时,那么H(x)=x,也就是上面所提到的恒等映射。于是,ResNet相当于将学习目标改变了,不再是学习一个完整的输出,而是目标值H(X)和x的差值,也就是所谓的残差F(x) := H(x)-x,因此,后面的训练目标就是要将残差结果逼近于0,使到随着网络加深,准确率不下降。

34层网络结构:

 

经典网络结构梳理:Resnet深度残差网络结构_第7张图片

从图中我们可以看出来他们的捷径有实线还有虚线,他们之间的区别是什么?

  • 实线的Connection部分,表示通道相同,如上图的第一个粉色矩形和第三个粉色矩形,都是3x3x64的特征图,由于通道相同,所以采用计算方式为H(x)=F(x)+x
  • 虚线的的Connection部分,表示通道不同,如上图的第一个绿色矩形和第三个绿色矩形,分别是3x3x64和3x3x128的特征图,通道不同,采用的计算方式为H(x)=F(x)+Wx,其中W是卷积操作,用来调整x维度的

除了上面提到的两层残差学习单元,还有三层的残差学习单元,如下图所示:

经典网络结构梳理:Resnet深度残差网络结构_第8张图片

两种结构分别针对ResNet34(左图)和ResNet50/101/152(右图),其目的主要就是为了降低参数的数目。左图是两个3x3x256的卷积,参数数目: 3x3x256x256x2 = 1179648,右图是第一个1x1的卷积把256维通道降到64维,然后在最后通过1x1卷积恢复,整体上用的参数数目:1x1x256x64 + 3x3x64x64 + 1x1x64x256 = 69632,右图的参数数量比左图减少了16.94倍,因此,右图的主要目的就是为了减少参数量,从而减少计算量

 

最后经检验,深度残差网络的确解决了退化问题,如下图所示,左图为平原网络(plain network)网络层次越深(34层)比网络层次浅的(18层)的误差率更高;右图为残差网络ResNet的网络层次越深(34层)比网络层次浅的(18层)的误差率更低。

经典网络结构梳理:Resnet深度残差网络结构_第9张图片

 

你可能感兴趣的:(深度学习)