深度学习论文:Deep Residual Learning for Image Recognition

论文:

He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

Abstract

深度神经网络难以训练,本文提出残差块来简化比以往深很多网络的训练,我们明确的重新定义了把输入作为参照的残差函数层,并提供了全面的证据表明残差网络更容易优化,在ImageNet数据集使用152层的残差网络(比vgg还深8倍),但仍有较低的复杂度,这些残差网络的集成在ImageNet测试集上取得了3.57% error。

表征深度对许多视觉识别任务非常重要,仅由于我们的表征非常深,在coco目标检测数据集上得到了28%的相对改进。 深度残差网络是我们参加ILSVRC & COCO 2015 竞赛上所使用模型的基础,并且在ImageNet检测、ImageNet定位、COCO检测以及COCO分割上均获得了第一名的成绩。

1. Introduction

深度卷积神经网络在图像识别上取得了一些列突破,深度网络通常集成low/mid/high level的特征,而特征的“level”可以通过堆叠层的数量(深度)来丰富,最近的证据表明网络深度十分重要,在富ImageNet数据集比赛上的领先结果都用了非常深的模型,深度为16至30。许多其他重要(nontrivial)的视觉识别任务也从非常深的模型中获益良多。

在深度的重要意义的驱动下,有一个问题:学习更好的网络就像堆叠更多的层一样简单吗?回答问题有一个障碍:可恶(notorious)的梯度消失/爆炸问题,这个问题在一开始就妨碍着收敛,但是它们已经在很大程度上被归一初始化和中间的归一化层解决,使得数十层的网络在反向传播的随机梯度下降中开始收敛。

当更深的网络能够开始收敛,暴露出一个退化(degradation )问题:随着深度增加,准确率达到饱和(这可能不足为奇),然后迅速下降。出乎意料的是,这种退化并不是由过度拟合造成的。我们的实验已经完全证实,在一个合适的深度模型上增加更多的层会导致更高的training error,图1给出了一个典型的例子。

深度学习论文:Deep Residual Learning for Image Recognition_第1张图片

这种训练集准确率的退化表明:不是所有系统都同样容易优化。让我们考虑一个较浅的结构和更深的对应结构,它在上面添加了更多的层,对于更深的模型,存在一个解决方案:添加的层是恒等映射(identity mapping),其他层是从更浅层中复制,恒等映射的存在表明,较深的模型不应该比较浅的模型产生更大的训练误差。但实验表明,我们手中现有的solver无法找到和恒等映射一样好或更好的解(或在可行时间内无法找到)。

(可以认为ResNet的目的,是让网络至少有恒等映射的能力,这样堆叠更多层时,网络至少不会产生退化。)

在本文中,我们通过引入一个深度残差学习框架来解决退化问题。我们不希望每个堆叠的几个层直接拟合(fit)一个期望的底层映射,而是显式地让这些层拟合一个残差映射(residual mapping)。我们将期望的底层映射表示为H(x),我们让堆叠的非线性层拟合另一个映射 F(x) = H(x) − x 。原始映射被重新映射为 F(x) + x 。我们假设优化残差映射比优化原始的、unreferenced的映射更容易,在极端情况下,如果恒等映射是最优的,那么将残差推到零要比通过一堆堆叠的非线性层更容易拟合一个恒等映射。

F(x) + x 可以通过前馈神经网络的“ 跳接(shortcut connections)”来实现(图2)。跳接是跳过一个或多个层的连接。在本例中,跳接只简单的执行恒等映射,它们的输出被添加到叠加层的输出中。它既不增加额外的参数,也不增加计算的复杂性。整个网络仍然可以使用反向传播的SGD进行端到端的训练,并且可以使用公共框架(例如caffe)来实现,而无需修改 solvers。

(残差函数F(x) = H(x) - x是学习的目标,即输入和输出的差。如果F(x)=0,残差块就构成了一个恒等映射H(x) = x。 拟合残差比拟合恒等映射容易许多。)

深度学习论文:Deep Residual Learning for Image Recognition_第2张图片

类似的现象也出现在CIFAR-10上,这表明优化的困难和我们方法的效果不仅仅适用于特定的数据集。我们在这个超过100层的数据集中展示了成功训练的模型,并探索了超过1000层的模型。 

在ImageNet分类数据集上,我们通过极深的残差网络得到了很好的结果。152层残差网络是迄今为止在ImageNet上出现的最深的网络,但仍然比VGG的复杂度低。我们的ensemble在ImageNet测试集的top-5 error为3.57%,在2015 ILSVRC分类竞赛中获得第一名。极深的表征在其他识别任务上也有很好的泛化性能,并带领我们在2015 ILSVRC & COCO竞赛中进一步获得了第一名:ImageNet检测、ImageNet定位、COCO检测、COCO分割。这一有力的证据表明,残差学习原理是通用的,我们希望它能适用于其他视觉和非视觉问题。

2. Related Work

残差表示(Residual Representations):在图像识别中,VLAD是一种对字典的残差向量进行编码的表示,Fisher Vector可以表示为VLAD的概率版本,它们都是图像检索和分类任务中有力的浅层表示法。在向量量化方面,对残差向量进行编码比对原始矢量进行编码更有效。

在低水平视觉和计算机图形学中,为了求解偏微分方程(Partial Differential Equations,PDEs),广泛使用的多重网格方法将系统重新表述为多个尺度上的子问题,其中每个子问题负责较粗和较细尺度之间的残差解(residual solution)。替代多重网格的一种方法是分层基础预处理(hierarchical basis preconditioning),它依赖于表示两个尺度之间的残差向量的变量。研究表明,这些solver比不知道the residual nature of the solutions的标准solver收敛得快得多。这些方法表明,一个好的的重新定义或预处理可以简化优化过程。

跳接(Shortcut Connections):跳接的实践和理论已经被研究了很长时间。早期训练多层感知器(multi-layer perceptrons, MLPs)的一个实践是添加一个从网络输入连接到输出的线性层。在GoogleNet中,一些中间层直接连接到辅助分类器,用于处理消失/爆炸梯度。文献[38,37,31,46]提出了通过跳接来调整层响应、梯度和传播误差的方法。在[43]中,“inception”层由一个shortcut分支和几个更深的分支组成。

与此同时,“highway networks” [41,42]将跳接与门函数(gating functions)结合,这些“门”是依赖数据的并且有参数,但是我们的跳接是没有参数的(input x),当一个gated shortcut关闭(接近0),highway networks中的层就表示非残差函数,与之相反,我们的公式总是学习残差函数,identity shortcuts永远不会关闭,所有的输入信息总是被传递,还有额外的残差需要学习,此外,highways networks并没有随着深度的增加显示出精度的提高。

3. Deep Residual Learning

3.1. Residual Learning

考虑H(x)作为一个底层映射(underlying mapping),由几个堆叠的层(不一定是整个网络)拟合,x代表这些层的输入,如果假设多个非线性层可以逼近复杂的函数,那么它们就也能逼近残差函数(即H(x) - x,这里假设input和output有相同的维度),因此,我们不期望堆叠的层去逼近H(x),而是显式地让这些层去逼近一个残差函数 F(x)= H(x)−x 。那么原来的函数变成了F(x)+x。虽然这两种形式都该能渐进地近似一个期望的函数(假设的那样),但是学习的难易程度可能不同。

(不再学习输入到输出的映射,而是学习“ 输入减输出 ”)

这种重新定义的动机是关于退化问题的反直觉现象(图1左)。正如我们在介绍中所讨论的,如果额外添加的层可以构造恒等映射,那么更深的模型应该起码有更大的训练误差。但退化问题表明,solver可能难以用多个非线性层逼近恒等映射。利用残差学习,如果恒等映射是最优的,那么solver可以简单地将多个非线性层的权值趋近于零来逼近恒等映射。

在实际情况中,恒等映射不太可能是最优的,但是我们的重新制定(reformulation)可能有助于预先确定(precondition)问题的所在。如果最优函数更接近于恒等映射而不是零映射,那么solver就更容易参照恒等映射找到映射相关的扰动(perturbations),(最优解如果接近恒等映射,残差块更容易找到带有波动的恒等映射,即接近但不是恒等映射的最优解),而不是将函数作为新的函数来学习。实验表明(图7),学习后的残差函数通常有较小的响应,这说明恒等映射提供了合理的预处理。

(这段没太理解透,再附上原文:In real cases, it is unlikely that identity mappings are optimal, but our reformulation may help to precondition the problem. If the optimal function is closer to an identity mapping than to a zero mapping, it should be easier for the solver to find the perturbations with reference to an identity mapping, than to learn the function as a new one. We show by experiments (Fig. 7) that the learned residual functions in general have small responses, suggesting that identity mappings provide reasonable preconditioning.)

3.2. Identity Mapping by Shortcuts

我们对每几个堆叠的层做依次残差学习,一个残差块如图2,形式上,在本文中一个残差块被定义为:

x和y是残差块的输入输出向量,函数F(x, {Wi})代表要学习的残差映射,例如在图2中有两层,F=W2σ(W1x),σ代表Relu,bias为了简便忽略掉,F + x的操作由跳接和element-wise addition完成。在相加完成后再应用第二个非线性Relu函数。公式(1)的跳接既没有额外参数也没有计算复杂度,这不仅在实践中很有吸引力,而且在比较朴素网络和残差网络时也很重要。我们可以公平比较同时具有相同数量的参数、深度、宽度和计算成本的朴素/残差网络(除了可以忽略的element-wise addition)。

公式(1)中的F和x的维度必须相同,如果不同的话,可以用一个额外的矩阵Ws与x相乘,以匹配F的维度:

当然也可以在公式(1)中也使用Ws矩阵与x相乘,但是通过实验可以证明恒等映射足够解决退化问题并且足够经济的,因此Ws在匹配尺寸时使用就足够了。残差函数F的形式是灵活的,本文的实验涉及一个有两层或三层的函数F(图5),还可以有更多的层。但如果F只有一层,公式(1)就类似于线性层:y = W1*x+x=(W1+1)*x,这使跳接毫无意义。

尽管为了简单起见,上面的表示法是关于全连接层的,但是它们适用于卷积层。函数F(x, {Wi})可以表示多个卷积层。element-wise addition则在两个feature map上逐通道执行。

3.3. Network Architectures

我们测试了各种普通/残差网络,观察到一致的现象。为了提供讨论的实例,我们对ImageNet上的两个模型描述如下。

Plain Network. 我们的baseline(图3中间)主要是受到vgg(图3,左边)的启发。卷积层大多是3×3滤波器,并且遵循两个简单的设计规则:(i)对于相同的输出feature map尺寸,各层有相同数量的滤波器;(ii)如果将feature map的大小减半,则过滤器的数量将增加一倍,以保持每一层的时间复杂度。我们直接通过步长为2的卷积层执行下采样(downsampling)。网络以一个global average pooling layer和一个带有softmax的1000的神经原全连接层结束。图3(中)带有权重的层数为34层。

值得注意的是,我们的模型比VGG具有更少的滤波器和更低的复杂度。我们的34层的baseline有36亿次FLOPs(multiply-adds)(Floating Point Operations,浮点操作),这只是VGG-19的18%(196亿次FLOPs)。

Residual Network. 基于上述plain网络,我们插入跳接(图3右),将网络转换为其对应的残差版本。恒等跳接(公式(1))时可以直接使用当输入和输出维度相同(图3右中的实线跳接)。当维度增加(图3右中的虚线跳接),有两个选择:(A)跳接仍然执行恒等映射,用额外的零进行填充用来增加维度,此选项不引入额外的参数。(B) 公式(2)中的投影Ws用于匹配尺寸(用1×1卷积)。对于这两个选项,当跳接跨越两个size的特征图时,它们的步长都是2。

深度学习论文:Deep Residual Learning for Image Recognition_第3张图片

3.4. Implementation

对图像resize,短边在[256,480]之间随机采样,来调整尺寸。从图像或其水平翻转中随机采样224×224的裁剪区域,每个像素的减去平均值[21]。使用标准颜色增强[21]。在每次卷积之后,激活之前,采用批量归一化(BN)[16]。我们初始化权值[12],从零开始训练所有的普通/残差网。使用的SGD的mini-batch大小为256。学习速率从0.1开始,当误差趋于稳定时除以10,对模型进行多达600000次迭代的训练。我们使用weight decay系数为0.0001,动量系数为0.9,不使用Dropout,遵循[16]的实践。

在测试时,为了进行比较研究,我们采用了standard 10-crop testing。为了得到最好的结果,我们采用[40,12]中的the fully-convolutional form,并在多个尺度上对分数进行平均(将图像的短边调整为{224,256,384,480,640})。

4. Experiments

(wc 本来都写完了 然后没保存 全都没了! 从简重新写一下)

4.1. ImageNet Classification

在1000类ImageNet上评估,1.28M训练图片,50k验证图片,100k测试图片,评估指标为top-1/top-5 error rate。

Plain Networks. 首先评估18层和34层plain net,34层的如图3中,18层类似,详细结构见表1。表2中的结果表明更深的34层plain net验证集错误率更高,图4左比较了它们训练过程中的训练/验证错误率,并发现了退化问题:34层plain net的训练集错误率也更高,即使18层网络的解空间是34层网络的解空间的子空间。

深度学习论文:Deep Residual Learning for Image Recognition_第4张图片

我们认为越深越难以优化不是由于梯度消失,这些plain net训练时使用了BN,确保前向传播的信号有非0的方差。我们也验证了反向传播的梯度在BN下有良好的范数(backward propagated gradients exhibit healthy norms with BN),所以正向和反向传播中信号都没有消失。34层的plain net仍能得到有竞争力的准确率,这说明它在某种程度上有效。我们推测plain net可能具有指数级的低收敛速度,这影响训练误差的下降,难以优化的问题会在未来研究。

深度学习论文:Deep Residual Learning for Image Recognition_第5张图片

Residual Networks. 然后评估18层和34层的ResNets,基础结构和plain一样,只在为每两个3×3滤波器加入跳接(图3右)。在第一次比较中(表2和图4右),使用恒等映射和在维度增加使补0,因此和plain net相比没有额外参数。主要有三个发现:首先,34层ResNet比18层ResNet更好(2.8%),并且34层ResNet的训练误差和验证误差都更低,这说明退化问题被很好的解决了,并且从深度中获得了准确率的提升。其次,34层ResNet比plain的top-1 error低3.5%(表2),这说明残差结构在极深模型中行之有效。最后,18层ResNet和plain准确率类似,但是ResNet收敛更快,在网络不太深的时候,sgd优化器仍能在plain net中找到好的解,但ResNet提供了更快的收敛速度以使优化变容易。

深度学习论文:Deep Residual Learning for Image Recognition_第6张图片

Identity vs. Projection Shortcuts. 表3比较三种选项:(A)维度增加时补0,所有跳接都没有额外参数(图4右和表2)。(B)维度增加时用Ws映射(公式2),其余用恒等映射。(C)所有跳接都用Ws映射。结果见表3:B比A稍微好一点,也许因为A中补0的部分没有残差学习;C比B稍微好一点,将此归因于许多个(13个)投影Ws的额外参数。但是,A/B/C之间的细微差异表明,投影Ws对于解决退化问题并不是必需的。因此,在本文的其余部分中,我们不使用选项C,以此降低内存/时间复杂度和模型大小。恒等映射对于不增加下面介绍的瓶颈体系结构的复杂性尤其重要。

深度学习论文:Deep Residual Learning for Image Recognition_第7张图片

Deeper Bottleneck Architectures. 出于训练成本时间的考虑,把残差块修改成bottleneck设计,对每个残差块,用堆叠的3个层代替2个层(图5),三个层是1×1, 3×3, 1×1卷积,1×1卷积层负责减少然后增加(恢复)维度,使3×3层成为比输入/输出维度更小的瓶颈。图5的例子中两种设计的时间复杂度相似。(该设计主要为了减少参数量,图5右侧的参数量为:256×1×1×64+64×3×3×64+64×1×1×256=69632,如果换成对应的右侧,参数量为:256×3×3×256×2=1179648,相差近17倍)恒等映射对bottleneck结构很重要,如果使用Ws映射,时间复杂度和模型大小都将翻一倍。

深度学习论文:Deep Residual Learning for Image Recognition_第8张图片

50-layer ResNet: 把34层ResNet中的2层残差块替换为3层残差块,得到了50层ResNet(表1),使用选项(B)提升维度,模型有38亿次FLOPs

101-layer and 152-layer ResNets: 使用更多的三层残差块得到了101层和152层ResNet,即使深度大幅增加,152层ResNet(113亿FLOPs)复杂度仍比VGG-16/19(153/196亿次FLOPs)小。50/101/152层的ResNet比34层ResNet准确率高很多,而且没有发现存在退化现象,因此从增加的深度中获得了显著的准确率收益。所有评价指标都可以看到深度的好处(表3和表4)。

深度学习论文:Deep Residual Learning for Image Recognition_第9张图片

Comparisons with State-of-the-art Methods: 表4比较了最好的单模型结果,baseline 34层ResNet获得了非常有竞争力的准确性。52层ResNet的单模型top-5验证误差为4.49%,优于之前所有的集成结果(表5)。将6个不同深度的模型组合在一起形成一个ensemble(在提交时只有两个152层的模型)。得到3.57%的测试集top-5 error(表5),在2015 ILSVRC中获得了第一名。

深度学习论文:Deep Residual Learning for Image Recognition_第10张图片

4.2. CIFAR-10 and Analysis

我们在CIFAR-10数据集上做了更多研究,50k训练图片,10k测试图片,10类。目的在于研究极深网络,而不是SOTA,因此结构如下。plain/residual网络和图3类似,网络输入是32×32,减去像素均值,第一层是3×3卷积,接下来使用6n个3×3卷积层,在尺寸为{32, 16, 8}的feature maps上各使用2n个,滤波器的数量分别是{16, 32, 64},下采样由步长为2的卷积执行,以一个全局平均池化+10个unit的softmax全连接层结束,共有6n+2个带有权重的层,见下图。当使用跳接时,对每两个3×3卷积层使用一次,因此共6n/2=3n个跳接,使用选项(A),因此和plain有相同的深度、宽度、参数量。

weight decay为0.0001,momentum为0.9,使用[12]的权重初始化,使用BN但无dropout。在两个gpu上以batch-size=128进行训练。从0.1的学习率开始,在32k和48k的迭代中除以10,在64k的迭代中终止训练,这是根据45k/5k的训练/验证集分割确定的。我们按照[24]中简单的数据扩充进行训练:每边填充4个像素,从填充后的图像或其水平翻转中随机采样32×32的裁剪。测试时只评估原始32×32图像的单一视图。

我们比较n ={3, 5, 7, 9},得到20,32,44和56层网络。图6(左)为plain的行为,深度越深,训练误差越大,这种现象与ImageNet(图4左)和MNIST(见[41])上的情况相似,说明这种更深的网络难以优化是一个基本问题。图6(中)显示了ResNets的行为,与ImageNet(图4右)的情况类似,ResNets成功地克服了难以优化的问题,并在深度增加时有准确率的提高。

深度学习论文:Deep Residual Learning for Image Recognition_第11张图片

进一步研究n =18,得到一个110层的ResNet。在这种情况下,我们发现初始学习率0.1有点大,无法开始收敛。所以我们使用0.01来warm up训练,直到训练误差低于80%(大约400次迭代),然后回到0.1,继续训练。剩下的训练和之前一样。这个110层的网络收敛的很好(图6,中间)。与FitNet[34]、Highway[41]等其他深且细的网络相比,其参数更少(表6),但仍处于SOTA水平(6.43%,表6)。

深度学习论文:Deep Residual Learning for Image Recognition_第12张图片

Analysis of Layer Responses.  图7为层响应(layer responses)的标准偏差(std)。响应是每个在BN之后和在其他非线性(ReLU/加法)之前的3×3卷积层的输出。对于ResNet,该分析揭示了残差函数的响应强度。从图7可以看出,ResNets的响应通常比plain的响应要小。这些结果支持了我们的基本动机(3.1节),即残差函数通常比非残差函数更接近于零。我们还注意到,更深的ResNet的响应幅度更小,如图7中ResNet-20、56和110的比较可以证明这一点。当有更多的层时,单个的ResNets层倾向于较少地修改信号。

深度学习论文:Deep Residual Learning for Image Recognition_第13张图片

Exploring Over 1000 layers.  我们探索了一个超过1000层的深度模型。设置n = 200,得到一个1202层的网络,如上所述进行训练。我们的方法在优化时没有遇到难度,这个1000层的网络能够实现小于0.1%的训练误差(图6右)。其测试误差仍然比较好(7.93%,表6)。

但在如此激进的模型中仍存在一些尚未解决的问题。这个1202层网络的测试结果比我们的110层网络的测试结果要差,尽管两者都有类似的训练误差。我们认为这是因为过度拟合。对于这个小数据集来说,1202层的网络可能大得不必要(19.4M)。使用maxout[9]或dropout[13]等强正则化手段可以来得到该数据集上的最佳结果([9,25,24,34])。在本文中,我们没有使用maxout/dropout,只是简单地通过设计将正则化应用到结构中,目的是不分散对难以优化问题的关注,但结合更强的正则化可能会改善结果,将在未来进行研究。

4.3. Object Detection on PASCAL and MS COCO

本方法在其它识别任务中具有良好的泛化性能。表7和表8显示了PASCAL VOC 2007 and 2012年[5]和COCO[26]的目标检测baseline结果。我们采用Faster R-CNN[32]作为检测方法。这里我们感兴趣的是用ResNet-101替换VGG-16[40]之后的改进。使用这两种模型的检测实现(见附录)是相同的,因此只能将增益归因于更好的网络。最值得注意的是,在具有COCO数据集上,我们获得了COCO标准度量(mAP@[.5,.95])6%的提升,相对提高了28%,这个增益仅仅是由于学习的表征(This gain is solely due to the learned representations.)。

基于深度残差网络,我们在2015年ILSVRC &COCO竞赛中获得了几个任务的第一名:ImageNet detection, ImageNet localization, COCO detection, COCO segmentation,详情在附录中。

深度学习论文:Deep Residual Learning for Image Recognition_第14张图片

References


[1] Y. Bengio, P. Simard, and P. Frasconi. Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, 5(2):157–166, 1994.
[2] C. M. Bishop. Neural networks for pattern recognition. Oxford university press, 1995.
[3] W. L. Briggs, S. F. McCormick, et al. A Multigrid Tutorial. Siam, 2000.
[4] K. Chatfield, V. Lempitsky, A. Vedaldi, and A. Zisserman. The devil is in the details: an evaluation of recent feature encoding methods. In BMVC, 2011.
[5] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The Pascal Visual Object Classes (VOC) Challenge. IJCV, pages 303–338, 2010.
[6] R. Girshick. Fast R-CNN. In ICCV, 2015. [7] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.
[8] X. Glorot and Y. Bengio. Understanding the difficulty of training deep feedforward neural networks. In AISTATS, 2010.
[9] I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and Y. Bengio. Maxout networks. arXiv:1302.4389, 2013.
[10] K. He and J. Sun. Convolutional neural networks at constrained time cost. In CVPR, 2015.
[11] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014.
[12] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In ICCV, 2015.
[13] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov. Improving neural networks by preventing coadaptation of feature detectors. arXiv:1207.0580, 2012.
[14] S. Hochreiter. Untersuchungen zu dynamischen neuronalen netzen. Diploma thesis, TU Munich, 1991.
[15] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.
[16] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015.
[17] H. Jegou, M. Douze, and C. Schmid. Product quantization for nearest neighbor search. TPAMI, 33, 2011.
[18] H. Jegou, F. Perronnin, M. Douze, J. Sanchez, P. Perez, and C. Schmid. Aggregating local image descriptors into compact codes. TPAMI, 2012.
[19] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv:1408.5093, 2014.
[20] A. Krizhevsky. Learning multiple layers of features from tiny images. Tech Report, 2009.
[21] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012.
[22] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural computation, 1989.
[23] Y. LeCun, L. Bottou, G. B. Orr, and K.-R.M¨uller. Efficient backprop. In Neural Networks: Tricks ofthe Trade, pages 9–50. Springer, 1998.
[24] C.-Y. Lee, S. Xie, P. Gallagher, Z. Zhang, and Z. Tu. Deeplysupervised nets. arXiv:1409.5185, 2014.
[25] M. Lin, Q. Chen, and S. Yan. Network in network. arXiv:1312.4400, 2013.
[26] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll´ar, and C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV. 2014.
[27] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.
[28] G. Mont´ufar, R. Pascanu, K. Cho, and Y. Bengio. On the number of linear regions of deep neural networks. In NIPS, 2014.
[29] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In ICML, 2010.
[30] F. Perronnin and C. Dance. Fisher kernels on visual vocabularies for image categorization. In CVPR, 2007.
[31] T. Raiko, H. Valpola, and Y. LeCun. Deep learning made easier by linear transformations in perceptrons. In AISTATS, 2012.
[32] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015.
[33] B. D. Ripley. Pattern recognition and neural networks. Cambridge university press, 1996.
[34] A. Romero, N. Ballas, S. E. Kahou, A. Chassang, C. Gatta, and Y. Bengio. Fitnets: Hints for thin deep nets. In ICLR, 2015.
[35] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. arXiv:1409.0575, 2014.
[36] A. M. Saxe, J. L. McClelland, and S. Ganguli. Exact solutions to the nonlinear dynamics of learning in deep linear neural networks. arXiv:1312.6120, 2013.
[37] N. N. Schraudolph. Accelerated gradient descent by factor-centering decomposition. Technical report, 1998.
[38] N. N. Schraudolph. Centering neural network gradient factors. In Neural Networks: Tricks of the Trade, pages 207–226. Springer, 1998.
[39] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014.
[40] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.
[41] R. K. Srivastava, K. Greff, and J. Schmidhuber. Highway networks. arXiv:1505.00387, 2015.
[42] R. K. Srivastava, K. Greff, and J. Schmidhuber. Training very deep networks. 1507.06228, 2015.
[43] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015.
[44] R. Szeliski. Fast surface interpolation using hierarchical basis functions. TPAMI, 1990.
[45] R. Szeliski. Locally adapted hierarchical basis preconditioning. In SIGGRAPH, 2006.
[46] T. Vatanen, T. Raiko, H. Valpola, and Y. LeCun. Pushing stochastic gradient towards second-order methods–backpropagation learning with transformations in nonlinearities. In Neural Information Processing, 2013.
[47] A. Vedaldi and B. Fulkerson. VLFeat: An open and portable library of computer vision algorithms, 2008.
[48] W. Venables and B. Ripley. Modern applied statistics with s-plus. 1999.
[49] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional neural networks. In ECCV, 2014.

你可能感兴趣的:(Deep,Learning)