【深度学习】残差结构:1000层网络

本文介绍网络从几层加深到一千层的各种关键技术,尤其聚焦残差结构(Residual)在其中发挥的作用。

问题

网络的层数越深,可覆盖的解空间越广,理论上应该有越高精度。
但简单地累加层数,并不能直接带来更好的收敛性和精度。

网络的宽度也是决定性能的关键因素,“深vs宽”未有定论,不在本文讨论之列。

几层到几十层

问题:梯度消失

对于较深的网络时,在反向传播时,很容易由于响应过大/过小,进入梯度为0的区域。导致浅层无法训练。

解决

ReLU

2012年5层的AlexNet1使用了ReLU结构,斩获当年ILSVRC图像分类竞赛第一名。

ReLU响应函数(蓝色)的值域是 [0,] ,只要响应为正,梯度不会消失
【深度学习】残差结构:1000层网络_第1张图片

ReLU的另一个优点是:计算很快

Batch Normalization

2015年初的Batch Normalization2虽然没有打榜ImageNet,不过在2015年ILSVRC的参赛算法中已经是标准配置。

Batch Normalization对每一个mini-batch样本进行归一化,削减了训练时网络内部的方差变化,避免过大或过小的响应。

BN的额外优点是:可以使用较大的学习率,并且对参数初始值不敏感

一百层

问题

当层数更深时,出现了“退化问题”:深层网络和浅层网络相比,训练误差和测试误差都更大。

虽然参数更多,但深层网络的问题显然不是over-fitting:训练集上的表现也很糟糕。

解决

残差结构

2015年的Deep Residual3训练出了152层网络,勇夺2015年ILSVRC分类问题第一名。

作者的设计思路如下:

  • 如果新增的层为单位映射 H(x)=x ,深层网络等价于浅层网络,性能不应该变差;
  • 但是,仅通过叠加深度网络中的非线性层,很难模拟单位映射;
  • 所以,干脆创造一个包含单位映射的结构 H(x)=x+F(x) ,直接训练 F(x) 的参数。

一个典型的残差结构如下,蓝色为需要训练的卷积层,绿色为Batch Normalization,红色为激活层 ReLU:
【深度学习】残差结构:1000层网络_第2张图片

数据流维持尺寸和通道数不变。新增的直通路只需要添加一个对位加运算,计算量极低

瓶颈式残差结构

这个结构可以进一步增加深度,但依然保有较低的运算量。
【深度学习】残差结构:1000层网络_第3张图片

数据流先压缩成N通道,再重新扩展成M通道。卷积核较大的一层(3*3)中,使用较小的通道数N;而通道数较多(M)的两层中,使用较小的卷积核尺寸(1*1)

虽然深度远超20层的VGG4网络,但Deep Residual网络的计算复杂度却比前者更低。

一千层

问题

进一步增加层数,还能获得更好的结果吗?

解决:直通结构

2016年的Identity Mapping5训练出了惊人的1001层网络,在CIFAR-10获得低于5%错误率。

和残差结构相比,直通结构把直通路 x 上的非线性运算,转移到了运算路 F(x) 上。

【深度学习】残差结构:1000层网络_第4张图片

即使堆叠多个直通结构,也能保证一条无损的 x 传递到网络深层。


  1. A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification
    with deep convolutional neural networks. In NIPS,
    2012. ↩
  2. S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep
    network training by reducing internal covariate shift. In ICML, 2015. ↩
  3. He, Kaiming, et al. “Deep residual learning for image recognition.” arXiv preprint arXiv:1512.03385 (2015). ↩
  4. K. Simonyan and A. Zisserman. Very deep convolutional networks
    for large-scale image recognition. In ICLR, 2015. ↩
  5. He, Kaiming, et al. “Identity mappings in deep residual networks.” arXiv preprint arXiv:1603.05027 (2016). ↩

你可能感兴趣的:(机器学习算法)