Deep Residual Learning for Image Recognition 论文笔记

Abstract

  • 提出了一个残差学习框架。
  • 使用残差学习框架在各种比赛任务中都取得的第一的成绩(2015)。

1.Introduction

  • 网络深度的增加带来的新问题:深度网络的训练过程是不是就像增加网络层那么简单?
  • 当更深的网络开始收敛,就会暴露出一个退化问题:当网络的深度逐渐增加,其正确率会趋于饱和,紧接着就会快速下降。这种下降不是由过拟合造成的,而是因为对一个已经比较合适的网络增加更多的层会导致更高的训练误差。正确率下降的现象表明:并不是所有的网络的优化方式都是类似的。
  • 为了解决正确率下降的问题,本文引入了深度残差学习框架。该框架会使网络层拟合一个残差函数F(x),而不是直接去拟合底层目标函数。记底层映射为H(x),令堆叠的非线性层拟合另一个函数:F(x):=H(x) - x,x为网络的输入。那么原映射就可以表示为H(x) = F(x) + x。我们假设恒等映射为该堆叠的非线性层的最有解(即H(x) = x),那么使得残差F(x) = 0比多个非线性层去拟合一个恒等映射更加简单。
  • 本文中的shortcut connections表示恒等映射,它们的输出值都加到堆叠层的输出值上。恒等连接不会引入额外的参数和计算量。
  • 我们发现:1.普通的网络在深度增加时会产生更高的训练损失,但是我们的非常深的残差网络很容易优化。2.我们的深度残差网络随着深度的增加可以获得更高的正确率。

3.Deep Residual Learning

3.1 Residual Learning

  • 如果多个非线性层可以逐渐逼近复杂的函数,那么等价地,它们也可以逐渐逼近残差函数H(x) - x(在输入输出维度相同的情况下)。

3.2 Identity Mapping by Shortcuts

  • 通过shortcut connetions实现F + x,逐元素相加再非线性激活。
  • x 和 F维度须一致,如果不一致,可以先通过shortcut connections对x做一个线性变换来匹配维度。

残差函数F时灵活的,可以指定任意层,但如果F只有一层,公式(1)就近似为一个线性变换:y = wx + x。F不但可以运用再全连接层上,也可以运用在卷积层上,逐元素相加在两个特征图上进行。

剩下为实验部分。

你可能感兴趣的:(深度学习)