卷积神经网络——ResNet论文翻译

论文地址:https://arxiv.org/pdf/1512.03385.pdf

Deep Residual Learning for Image Recognition

Abstract

神经网络的深度越深就会越难训练。我们提出了一个残差学习框架,可以使比之前常用网络更深的网络的训练变的容易些。我们将层重新定义为学习关于该层输入的残差函数而不是学习未引用的函数。我们通过全面的实验表明该残差网络更容易优化,可以通过更深的层次来获得更高的精度。在 ImageNet 数据集上,我们评估深度高达152层的残差网络——比VGG网络[41]深8倍,但仍然具有较低的复杂度。 这些残差网络的集合在 ImageNet 测试集上的错误率为3.57%。该结果在 ILSVRC 2015 分类任务中获得第一名。 我们还在CIFAR-10上对100 层和 1000 层的网络进行了实验分析。

对于很多视觉识别任务,特征的深度是一个最关键的问题。由于我们的超常的深度,我们在COCO检测数据集上精度提升了28%。深度残差网络是我们提交给 ILSVRC & COCO 2015 竞赛的基础,我们还在 ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割任务中获得了第一名。

1. Introduction

深度卷积神经网络[22,21]为图片分类领域[21, 50, 40]带来了一系列的突破。深度网络使用端到端的多个层次的方式将低/中/高级别的特征[50]和分类器结合到一起,特征的"层"可以通过堆叠层次的数量(深度)来扩展。最近证据[41, 44]表明网络的深度是至关重要的,在ImageNet挑战数据集[36]上成绩领先[41, 44, 13, 16]都利用了非常深的模型,深度为16层[41]和30层[16]。许多其他重要的视觉识别任务[8, 12, 7, 32, 27]也从非常深的模型中受益匪浅。
卷积神经网络——ResNet论文翻译_第1张图片
随着深度越来越重要,出现了一个问题:训练更好的网络是否与叠加更多层一样容易?回答这个问题的一个障碍是臭名昭著的梯度消失/爆炸问题[1,9],该问题从一开始就阻碍了收敛。然而,归一化的初始化[23,9,37,13]和中间归一化层[16]在很大程度上解决了这一问题,这使得使用带反向传播的随机梯度下降(SGD)[22]的具有数十层的网络能够收敛。

当更深的网络可以收敛,精度退化的问题就暴露出来了:随着网络深度的增加,精度达到一个最大值(这应该不奇怪)然后快速退化。出乎意料的是,这中精度退化并不是过拟合引起的,在一个适当层次的网络上添加更多的层次后会导致更高的训练误差,如[11, 42]所述,并由我们的实验彻底验证了该问题。图1中展示了一个典型例子。

训练精度的下降说明并非所有系统都易于优化。我们考虑一个层次更少的结构和一个与之对应的在它基础上添加其他层构成的更多层次的结构。通过构造更深层次模型就有了一个解决方案:新添加的层是恒等映射,其他的层是从训练好的更浅层次复制的。这种构造方案的存在说明,更深的模型不应产生比其更浅的对应模型更高的训练误差。但是实验证明我们现有的方法无法找到能够与构造解决方案差不多或者更好的解决方案(或者能够在可能的时间内找到)。

在本文中,我们通过引入一个深度残差学习框架来解决退化问题。我们直接让这些层拟合残差映射,而不是让这几个层去拟合期望的基础映射。形式上,我们把期望的基础映射表示为H(x),我们让几个非线性层拟合另一个映射F(x) := H(x) − x。原始的映射就转换称为F(x)+x。我们假设优化残差映射比原始未引用的映射更容易。极端情况下,如果恒等映射是最优的,将残差变为0比用一组非线性层来满足恒等映射更简单。

卷积神经网络——ResNet论文翻译_第2张图片在前馈神经网络中F(x) + x可以通过"短接"来实现(图2)。短接[2, 34, 49]意思就是跳过一个或多个层的连接。在我们的例子中,短接只是简单的表示恒等映射,他们的输出会与堆叠层的输出相加(图2)。恒等的短接即不会增加额外的参数也不会增加计算复杂度。整个网络仍然可以时候用带反向传播的SGD进行端到端的训练,可以使用公共库很容易的实现(例如Caffe [19])而不需要修改已有方案。

我们在ImageNet上进行了全面的实验来展示退化问题并对我们的方法进行评估。结果表明:1)我们的极深残差网络易于优化,但是与之对应的"普通"网络(只是简单堆砌层)在深度增加时表现出了更高的训练误差;2)我们的深度残差网络可以很容易的通过大大的增加深度来提高精度,得到的结果比之前的网络要好得多。

在CIFAR-10数据集[20]上也有类似的现象,这说明优化难题和我们方法的有效性不是针对特定的数据集。我们在这个数据集上成功的训练了一个超过100层的网络,并探索了超过1000层的模型。

在ImageNet的分类数据集[36]上,我们使用极深的残差网络获得了非常好的结果。我们的152层的残差网络是目前为止应用到ImageNet上深度最深的网络,同时还有以VGG[41]更低的复杂度。在ImageNet的测试数据集上我们的top-5误差为3.57%,赢得了ILSVRC
2015分类竞赛的冠军。这种极深网络在其他识别任务上有很好的泛化性能,这使我们在 ILSVRC & COCO 2015 竞赛中进一步赢得了 ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割的冠军。强有力的证据表明,残差学习理念是通用的,我们也希望它能适用于其他视觉和非视觉问题。

2. Related Work

残差表示。 在图片识别领域,VLAD[18]是一种由残差向量相对于字典进行编码的表示方式,Fisher Vector[30]可以作为VLAD的一种概率版本[18]。他们都是用于图片检索和分类的强大表示。对于向量的量化,对残差向量进行encoding证明比原始向量进行编码更有效。

在低级视觉和计算机图像领域中,为了求解偏微分方程(PDEs),广泛应用的Multigrid[3]方法将其系统重新表述为一个多尺度子问题,每一个子问题负责一个粗粒度和更细粒度尺度之间的残差结果。Multigrid的一个可替代方法分层基础预处理[45,46],它依赖能够表示两个尺度之间残差向量的变量。已经证明[3,45,46],这些解决方法比不知道残差的标准解决方案收敛更快。这些方法表明良好的重构和预处理可以简化优化。

计算机视觉层次可大致分为三个层次:低级视觉,中级视觉,高级视觉。参考文章:https://blog.csdn.net/wangzhebupt/article/details/11961501

Shortcut Connections。 提出Shortcut Connections[2,34,49]的理论和实践已经研究很长时间了。一个早期的实践是训练多层感知器[MLPs]时在网络的输入和输出之间添加一个线性层[34,49]。在[44, 24]中,将几个中间层直接连接到了辅助分类器上面,用来解决梯度的消失/爆炸。在[39, 38, 31, 47]等文章中提出了通过Shortcut Connections实现的响应,梯度和反向误差中心化的方法。在[44]中"inception"层由一个短接分支和几个更深分支组成。

与我们工作同时进行的,“highway networks”[42, 43]提供了门控功能的[15]shortcut connections。与我们的无参数恒等映射不同的是这些门依赖数据并且拥有参数。当一个门控"关闭"也就是趋于0的时候,"highway networks"中的层表示非残差函数。相反,我们的方式总是学习残差函数;我们的恒等映射永远不会关闭,所有的信息都会传递过去,用于额外的残差函数的学习。另外,高速网络并没有随着深度的增加(例如超过100层)获得精度的提升。

3. Deep Residual Learning

3.1. Residual Learning

我们假设H(x)是一个基础的映射,通过几个layer来进行拟合(不需要是整个网络,只用几个层来说明),x表示第一层的输入。如果我们假设多个非线性层可以渐进逼近一个复杂函数,那么同样可以假设他们可以渐进逼近残差函数,例如:H(x) - x(假设输入和输出的维度相同)。因此与其让这些层来逼近H(x),我们更希望让这些层来逼近残差函数F(x) = H(x) − x。这样的话, 原始的函数H(x)就变成了F(x) + x。虽然两种方式都能够渐进逼近我们想要的函数(也就是假设函数),但是学习的难易程度可能不同。

该重构的动机是解决不符合直觉的精度下降的问题(图一,左侧)。就如我们在introduction章节讨论的,如果添加的这些层能够表示恒等映射的层,这个层次更深的模型不应该比对应的层次少的模型的训练误差更大。精度下降问题说明解决该问题的困难在于通过多个非线性层来模拟恒等映射。通过残差学习的重构,如果恒等映射是最优的,那么解决方案就是简单的使多个非线性层的权重趋向于0以接近恒等映射。

在实际情况中,恒等映射不可能是最优的,但是我们的模式可能有助于解决问题。如果最优的函数相对于零映射更接近于一个恒等映射,那么解决方案应该更容易找到基于恒等映射的小变动,而不是做为一个新函数去学习。我们通过实验(图 7)表明,学习到的残差函数通常具有较小的响应,这表明恒等映射提供了合理的预处理。

3.2. Identity Mapping by Shortcuts

我们没个几层应用一次残差学习。图2中展示了我们构造的一个残差模块。形式上,在本文中我们把一个残差快定义为:
在这里插入图片描述
这里x和y分别是相关层的输入和输出。函数F(x, {Wi})表示要学习的残差映射。在图2的例子中的残差块包含两个层,F = W2σ(W1x)里面σ表示ReLU[29], biases为了简单被忽略掉了。F + x表示的是短接的连接是元素的相加。我们在相加后使用了第二个非线性运算(例如图2中的σ(y))。

等式1中的短接连接既不会引入额外的参数也不会有增加计算复杂度。这不仅对实践非常有吸引力,同样对扁平网络和残差网络的比较也非常重要。我们可以平等的对比扁平/残差网络,他们拥有相同数量的参数,深度,宽度和计算开销(除去元素级别的相加)。

等式1中x和F的维度必须相同。如果不相同的话(例如修改了输入/输出的通道数),我们可以在短接连接上加上一个线性的Ws使维度相同。
在这里插入图片描述
我们也可以在等式1中使用一个矩阵Ws。但是我们将通过实验证明恒等映射对于解决退化问题已经足够了而且非常经济,因此Ws只是在匹配维度时使用。

残差函数F的形式是非常灵活的。本文中实验使用的F包含两层或三层(图5),当然更多的层也是可以的。但是如果F只包含一层,等式1就类似与一个线性层y = W1x + x,这种情况下我们没有得到任何的提升。

我们还注意到,尽管为简单起见,上述符号是关于全连接层的,但它们适用于卷积层。 函数 F(x, {Wi}) 可以表示多个卷积层。在两个特征图上逐通道的执行元素相加。

3.3. Network Architectures(网络结构)

我们测试了多种普通的和残差的网络,并且得到了一致的结果。为了给讨论提供实例,我们基于ImageNet设计了两个模型,如下所示:

普通网络。 我们的基线网络(图3,中间)主要受VGG网络[41] (图3,左侧)的设计思想的启发。大部分的卷积层都是3x3的filter,并且遵循两个简单的设计原则:(i)对于输出的特征图大小相同的层拥有相同数量的filter;(ii)如果输出特征图大小减半则filter的数量翻倍,以此来保证每层的时间复杂度。我们直接使用步长为2的卷积层来实现下采样。网络的最后是一个全局的平均池化层和一个带有1000个输出的全连接层并跟一个softmax。带权重的层次总数为34(图3,中间)。

值得注意的是,与VGG[41] (图3,左侧)相比我们的模型拥有更少的filter和更低的复杂度。我们作为基线的34层网络拥有36亿FLOP(乘和加),只是VGG19的18%(196亿的FLOP)。

卷积神经网络——ResNet论文翻译_第3张图片
残差网络。 基于上面的普通网络,我们插入短接连接,将网络转换为对应的残差网络版本。当输入和输出的维度相同时(图3中的实线)可以直接使用恒等的短接(等式1)。当维度增加时(图3中的虚线短接),我们考虑了两种选择:(A) 短接仍然是恒等映射,但是通过额外填充0来增加维度。这种方式不会引入额外的参数;(B)在等式2中的短接方式可以用来匹配维度(通过1x1卷积实现)。当短接跨越两大小的特征图时,两种方式的步长都是2。

3.4. Implementation

我们在ImageNet上的实现遵循了[21,41]中的实践。图片根据它的较短边进行resize,在[256,480]中随机取值[41]来进行图片的缩放。然后对图片或者水平翻转后的图片进行224x224的随机裁剪采样,并减去每一个像素的平均值[21]。使用了[21]中的标准色彩增强。参考[16],在每一个卷积后和激活函数前使用了批量归一化(BN)[16]。我们的权重初始化与[13]中一致,并从零开始训练所有的普通和残差网络。我们将SGD的mini-batch size设置为256。学习率初始值为0.1,当误差平稳时除以10,模型最多训练了600000个迭代。我们使用的weight decay为0.0001,momentum为0.9。与[16]一样,我们没有使用dropout[14]。

在测试时,为了对比研究我们应用了标准的10-crop测试[21]。为了得到最好的结果,与[41,13]一样我们使用了全卷积的形式,对多个尺度的得分取了平均值(图片resize时短边的长度在{224, 256, 384, 480, 640}里面取)。

4. Experiments

4.1. ImageNet Classification

我们在包含1000分类的ImageNet 2012分类数据集[36]上对我们的方法进行了评估。模型使用了128万的训练图片进行训练,5万张验证图片进行评估。我们同样取得了测试服务器报告的在10万张测试图片的最终结果。我们评估了top-1和top-5的错误率。

卷积神经网络——ResNet论文翻译_第4张图片卷积神经网络——ResNet论文翻译_第5张图片**Plain Networks. ** 我们首先分别评估了18层和34层的普通网络。34层的网络在图3中(中间)。18层的网络拥有类似的结构。详细结构请参见表1。

表2中的结果表明层次更深的34层普通网络比层次更浅的18层普通网络拥有更高的验证错误率。为了探究原因,在图4(左侧)我们比较了在训练过程中的训练/验证的错误率。我们发现了退化问题——贯穿整个训练过程34层的普通网络拥有更高的训练误差,尽管 18 层普通网络的解空间是 34 层网络的子空间。

我们认为这里优化的困难不太可能梯度消失引起的。这些网络在训练时使用了BN[16],确保前向传播的信号具有非零方差。 我们还验证了反向传播的梯度时候BN后表现正常。因此前向和反向信号都不会消失。实际上,34层的普通网络仍然能够得到很有竞争力的精度(表3),这说明该方案在一定程度上或范围内起作用。我们推测层次深的普通网络可能有低指数的收敛速度,这就影响了训练误差的下降。该优化困难的原因留待以后研究。

**Residual Networks. ** 下面我们对18层和24层的残差网络(ResNets)进行评估。除了为每对3x3的Filter添加了短接连接如图3(右侧)外,网络的基础结构与上面的普通网络相同。在第一个比较中(表2和图4右侧),我们为所有的短接使用了恒等映射,并在维度增加时使用了零填充(上面的选择A)。所以与对应的普通网络相比他们没有任何额外的参数。

在表2和图4中我们有三个主要的发现。首先,残差学习使情况发生了翻转,34层残差ResNet网络比18层的ResNet表现更好(错误率低了2.8%)。更重要的是34层ResNet表现了相当低的训练误差,并且可以泛化到验证数据。这说明在这种情况下退化问题得到了很好的解决,并且我们可以通过增加层来获得精度的提升。

其次,与对应的普通网络相比,由于成功的降低了训练误差(图4,左侧vs右侧),34层的ResNet网络top-1错误率下降了3.5%(表2)。通过比较证明了残差学习在极深系统中的有效性。

最后,我们同时注意到18层的普通/残差网络都非常的准确(表2),但是18层的ResNet收敛更快(图4右侧vs左侧)。当网络不太深的时候(这里是18层),SGD优化器仍然能够为普通网络找到好的答案。在这种情况下,ResNet 通过在早期提供更快的收敛来简化优化。
卷积神经网络——ResNet论文翻译_第6张图片卷积神经网络——ResNet论文翻译_第7张图片Identity vs. Projection Shortcuts. 我们已经证明无参数的恒等映射对训练是有用帮助的。下面我们研究一下projection shortcut(等式2)。在表3中比较了三种方式:(A)通过零填充来增加维度,所有的短接连接都不会引入参数(与表2和图四右侧相同);(B)使用Projection Shortcut来增加维度,其他维度不变的使用恒等映射;©所有的都是用Projection Shortcut。

表3显示这几种方式都比对应的普通网络表现好很多。B比A稍好一些。我们认为因为A中的零填充维度实际上没有残差学习。C比B好一些,我们归因于多个(13)Projection Shortcut引入的额外参数。但是A/B/C的微小差异说明Projection Shortcut并不是解决退化问题的关键。因此在剩下的内容中我们不使用C方式,以降低内存/时间复杂度和模型大小。恒等映射非常重要的一点是不会增加下面我们要介绍的bottleneck结构的复杂度。

Deeper Bottleneck Architectures. 下面我们介绍一下用于ImageNet的更深的网络。由于担心我们可以承受的训练时间,我们把构建的块设计成为bottleneck。每一个残差函数F,我们使用3个层来替代2个层(图5)。这三个层分别是1x1,3x3和1x1的卷积层,这里1x1的卷积层用来先降维度然后再升(恢复)维度,使3x3的卷积层作为一个bottleneck拥有更小的输入/输出维度。图5中展示了一个例子,这两种设计拥有差不多的时间复杂度。

无参数的恒等短接方式对于bottleneck结构非常重要。如果图5(右侧)的恒等短接替换为projection,那么时间复杂度和模型大小都会翻倍,因为短接连接的两端都是高维度。因此,恒等短接连接可以使bottleneck设计的模型更有效。

50-layer ResNet: 我们把34层的ResNet网络中包含两个layer的block替换为包含三层的bottleneck block,这样就得到了一个50层的ResNet(表1)。我们使用选项B来提升维度。该模型拥有38亿的FLOP。

**101-layer and 152-layer ResNets: ** 我们通过使用更多的包含3个layer的block构造了101和152层的ResNet(表1)。值得注意的是,虽然深度大大的增加了,152层的ResNet(113亿FLOP)仍然比VGG16/19(153/196亿FLOP)的复杂度低。

50/101/152层的ResNet比34层的ResNet的精度有了一个极大的提升(表3,4)。我们没有遇到退化问题,并且从大量增加深度获得了精度的极大提升。所有评估指标都证明了深度的好处(表 3 和表 4)。

**Comparisons with State-of-the-art Methods. ** 在表4中,我们与之前最好的单一模型结果进行了比较。我们的基线34层resnet已经达到了非常有竞争力的精度。我们的152层ResNet的单一模型前五名验证误差为4.49%。这个单一模型的结果优于之前所有的结果(表5)。我们将六个不同深度的模型组合成一个整体(提交时只有两个152层模型)。在测试集的top-5错误率为3.57%(表5)。该模型在2015年ILSVRC中获得第一名。

4.2. CIFAR-10 and Analysis

我们在Cifar-10数据集[20]上进行了更多的研究,该数据集是10分类的包含5万张训练图片和1万张测试图片。我们试验中使用训练集进行训练使用测试集进行评估。我们的重心放在研究极深网络的行为上而不是进一步提升当前的最好结果,因此我们有意的使用了下面介绍的简单结构。

普通网络和残差网络的架构遵循了图3中的形式(中间和右侧)。网络的输入是32x32的图片,每个像素都减去pixel mean(这个计算方法另开帖子介绍),第一层是3x3的卷积。接下来是6n个层,每层都是在{32, 16, 8}的特征图上分别使用3x3的卷积,3种大小的特征图每个大小都有2n个层。filter的数量分别是{16, 32, 64}。下采样使用的是步长为2的卷积。网络的最后是一个全局平均池化层,一个10路的全连接层和一个softmax。总共有6n+2个带权重的层。下面的表格对架构进行了汇总:
卷积神经网络——ResNet论文翻译_第8张图片
每两个3x3的层使用一个shortcut连接(总共3n个shortcut)。在该数据集上所有的情况都使用了恒等的shortcut(即选项A),因此我们的残差模型和对应的普通模型拥有相同的深度、宽度和参数数量。

我们的weight decay取值为0.0001,momentum取值0.9,使用了[13]中的权重初始化方式,使用了BN,没有使用dropout。这些模型在两个GPU上训练,mini-batch取128。学习率初始值为0.1,在3.2万和4.8万个迭代的时候分别除以10,最终总共训练6.4万个迭代,这取决于45K/5K的训练/验证集切分。我们使用了[24]中的简单的数据集增强进行训练:图片的每个变都填充4个像素,然后对填充后的图片或者其水平旋转后的图片进行32x32的随机裁剪。测试时我们只评估原始的32x32的图片。

我们比较了n={3, 5, 7, 9}对应的20, 32, 44, 56层的网络。图6(左侧)展示的是普通网络的表现。更深的普通网络收到深度增加的影响,当深度增加时表现出了更高的训练误差。该现象与ImageNet(图4左侧)和MINIST(见[42])的相似,表明该优化难题是一个基本问题。

图6(右侧)展示了ResNet系列网络的表现。同样与ImageNet的情况(图4右侧)类似,我们的ResNet解决了优化难题,并且从深度增加中获得精度上的收益。

我们进一步探索了n=18对应的110层的ResNet。我们发现0.1的学习率取值太大而不能一开始就收敛。因此我们采用0.01的学习率进行训练的预测直到训练误差低于80%(差不多400个迭代),然后恢复成0.1继续训练。后面学习率的策略与之前相同。该110层的网络收敛的很不错(图6中间)。它用于比其他深且瘦的网络拥有更少的参数,例如FitNet[35]和Highway[42] (表6),但是确实表现最好的网络之一(6.43%, 表 6)。
卷积神经网络——ResNet论文翻译_第9张图片
** 层的响应分析。** 图7展示了层响应的标准差(std)。这些响应指的是每个3x3层的输出,在BN后其他非线性激活之前(ReLU/addition)。对于 ResNets,该分析揭示了残差函数的响应强度。 图 7 显示,ResNet 的响应通常比相对应的普通网络的响应小。 这些结果支持我们的基本目标(3.1节),即残差函数可能通常比非残差函数更接近于零。 我们还注意到,如图7中ResNet-20、56和110之间的比较所示,较深的ResNet具有较小的响应幅度。当有更多的层时,一个单独的resnet层倾向于较少地修改信号。

探索超过1000层的网络。 我们探索了一个深度超过1000的极深网络。我们取n=200,得到一个1202层的网络,训练方法与之前介绍相同。我们的方法没有遇到优化难题,并且该千层网络训练误差能够达到0.1%(图6,右侧)。它的测试误差仍然表现不错(7.93%, 表6)。

但是在这种极深模型上仍然存在开放性问题。1202层网络的测试结果比110层的结果差,虽然两者拥有差不多的训练误差。我们认为是过拟合了。对于这个小数据集1202层的网络可能太大了(19.4M)。应用诸如 maxout [10] 或 dropout [14] 之类的强正则化来在该数据集上获得最佳结果 ([10, 25, 24, 35])。 在本文中,我们不使用 maxout/dropout,只是通过设计深和瘦架构简单地施加正则化,聚焦优化困难问题。 但是结合更强的正则化可能会改善结果,我们将在未来研究。

4.3. Object Detection on PASCAL and MS COCO

我们的方法在其他识别任务上具有良好的泛化性能。 表 7 和表 8 显示了 PASCAL VOC 2007 和 2012 [5] 和 COCO [26] 上的对象检测基线结果。 我们使用Faster R-CNN [32] 作为检测方法。 在这里,我们对用 ResNet-101 替换 VGG-16 [41] 的改进感兴趣。 使用两种模型的检测实现(见附录)是相同的,因此收益只能归因于更好的网络。 最引人注目的是,在具有挑战性的 COCO 数据集上,我们获得了 COCO 的标准度量(mAP@[.5, .95])增加了 6.0%,相对改善了 28%。 这种增益完全是由于学习到的表征。

基于深度残差网络,我们在 ILSVRC & COCO 2015 比赛的多个比赛中获得第一名:ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割。 详细信息在附录中。

References

[1] Y. Bengio, P. Simard, and P. Frasconi. Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, 5(2):157–166, 1994.
[2] C. M. Bishop. Neural networks for pattern recognition. Oxford university press, 1995.
[3] W. L. Briggs, S. F. McCormick, et al. A Multigrid Tutorial. Siam, 2000.
[4] K. Chatfield, V. Lempitsky, A. Vedaldi, and A. Zisserman. The devil is in the details: an evaluation of recent feature encoding methods. In BMVC, 2011.
[5] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The Pascal Visual Object Classes (VOC) Challenge. IJCV,
pages 303–338, 2010.
[6] S. Gidaris and N. Komodakis. Object detection via a multi-region & semantic segmentation-aware cnn model. In ICCV, 2015.
[7] R. Girshick. Fast R-CNN. In ICCV, 2015.
[8] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.
[9] X. Glorot and Y. Bengio. Understanding the difficulty of training deep feedforward neural networks. In AISTATS, 2010.
[10] I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and Y. Bengio. Maxout networks. arXiv:1302.4389, 2013.
[11] K. He and J. Sun. Convolutional neural networks at constrained time cost. In CVPR, 2015.
[12] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014.
[13] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In ICCV, 2015.
[14] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov. Improving neural networks by preventing co-
adaptation of feature detectors. arXiv:1207.0580, 2012.
[15] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.
[16] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015.
[17] H. Jegou, M. Douze, and C. Schmid. Product quantization for nearest neighbor search. TPAMI, 33, 2011.
[18] H. Jegou, F. Perronnin, M. Douze, J. Sanchez, P. Perez, and C. Schmid. Aggregating local image descriptors into compact codes.
TPAMI, 2012.
[19] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv:1408.5093, 2014.
[20] A. Krizhevsky. Learning multiple layers of features from tiny images. Tech Report, 2009.
[21] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012.
[22] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to hand-
written zip code recognition. Neural computation, 1989.
[23] Y. LeCun, L. Bottou, G. B. Orr, and K.-R. Müller. Efficient backprop. In Neural Networks: Tricks of the Trade, pages 9–50. Springer, 1998.
[24] C.-Y. Lee, S. Xie, P. Gallagher, Z. Zhang, and Z. Tu. Deeply supervised nets. arXiv:1409.5185, 2014.
[25] M. Lin, Q. Chen, and S. Yan. Network in network. arXiv:1312.4400, 2013.
[26] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C. L. Zitnick. Microsoft COCO: Common objects in
context. In ECCV. 2014.
[27] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.
[28] G. Montúfar, R. Pascanu, K. Cho, and Y. Bengio. On the number of linear regions of deep neural networks. In NIPS, 2014.
[29] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In ICML, 2010.
[30] F. Perronnin and C. Dance. Fisher kernels on visual vocabularies for image categorization. In CVPR, 2007.
[31] T. Raiko, H. Valpola, and Y. LeCun. Deep learning made easier by linear transformations in perceptrons. In AISTATS, 2012.
[32] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS,
2015.
[33] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. arXiv:1504.06066, 2015.
[34] B. D. Ripley. Pattern recognition and neural networks. Cambridge university press, 1996.
[35] A. Romero, N. Ballas, S. E. Kahou, A. Chassang, C. Gatta, and Y. Bengio. Fitnets: Hints for thin deep nets. In ICLR, 2015.
[36] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet
large scale visual recognition challenge. arXiv:1409.0575, 2014.
[37] A. M. Saxe, J. L. McClelland, and S. Ganguli. Exact solutions to the nonlinear dynamics of learning in deep linear neural networks. arXiv:1312.6120, 2013.
[38] N. N. Schraudolph. Accelerated gradient descent by factor-centering decomposition. Technical report, 1998.
[39] N. N. Schraudolph. Centering neural network gradient factors. In Neural Networks: Tricks of the Trade, pages 207–226. Springer,
1998.
[40] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. Le-Cun. Overfeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014.
[41] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.
[42] R. K. Srivastava, K. Greff, and J. Schmidhuber. Highway networks. arXiv:1505.00387, 2015.
[43] R. K. Srivastava, K. Greff, and J. Schmidhuber. Training very deep networks. 1507.06228, 2015.
[44] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015.
[45] R. Szeliski. Fast surface interpolation using hierarchical basis functions. TPAMI, 1990.
[46] R. Szeliski. Locally adapted hierarchical basis preconditioning. In SIGGRAPH, 2006.
[47] T. Vatanen, T. Raiko, H. Valpola, and Y. LeCun. Pushing stochastic gradient towards second-order methods–backpropagation learning with transformations in nonlinearities. In Neural Information Processing, 2013.
[48] A. Vedaldi and B. Fulkerson. VLFeat: An open and portable library of computer vision algorithms, 2008.
[49] W. Venables and B. Ripley. Modern applied statistics with s-plus. 1999.
[50] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional neural networks. In ECCV, 2014.

你可能感兴趣的:(卷积神经网络,人工智能,机器学习,cnn,深度学习,神经网络)