Pierre Sermanet, David Eigen, Xiang Zhang, Michael Mathieu, Rob Fergus, Yann LeCun
(Courant Institute of Mathematical Sciences, New York University
719 Broadway, 12th Floor, New York, NY 10003
sermanet,deigen,xiang,mathieu,fergus,[email protected])
我们提出了一个使用卷积网络进行分类、定位和检测的集成框架。我们展示了如何在ConvNet中有效地实现多尺度滑动窗口方法。我们还介绍了一种新的深度学习方法,通过学习预测对象边界来定位。然后累加而不是抑制边界框,以增加检测置信度。我们证明了使用一个共享网络可以同时学习不同的任务。该集成框架是2013年ImageNet大规模视觉识别挑战赛(ILSVRC2013)定位任务的获胜者,在检测和分类任务中获得了非常有竞争力的结果。在赛后工作中,我们为检测任务建立了一种新的状态。最后,我们从我们最好的模型中发布了一个叫做OverFeat的特性提取器。
识别图像中主要对象的类别是卷积网络(ConvNets)[17]多年来一直应用的一项任务,无论对象是手写字符[16]、门牌编号[24]、无纹理玩具[18]、交通标志[3、26]、加州理工大学101数据集[14]中的对象,还是1000类别的对象ImageNet数据集[15]。ConvNets在小数据集(如Caltech-101)上的精确度虽然不错,但并没有打破纪录。然而,更大数据集的出现使ConvNets能够显著提高数据集的技术水平,如1000类ImageNet[5]。
对于许多这样的任务,ConvNets的主要优点是,从原始像素到最终类别,整个系统都进行了端到端的训练,从而减少了手动设计合适的特征提取器的要求。主要的缺点是他们对有标签的训练样本缺乏。
本文的主要目的是证明训练一个卷积网络来同时对图像中的目标进行分类、定位和检测,可以提高分类精度和所有任务的检测和定位精度。本文提出了一种新的基于单一convnet的目标检测、识别和定位方法。我们还介绍了一种通过累积预测边界盒来定位和检测的新方法。我们建议,通过结合多个定位预测,可以在不需要训练背景样本的情况下进行检测,并且可以避免耗时和复杂的自举训练过程。不进行背景培训也让网络只关注积极的课程,以获得更高的准确性。在ImageNet ILSVRC 2012和2013数据集上进行了实验,建立了ILSVRC 2013定位和检测任务的最新结果。
虽然来自ImageNet分类数据集的图像大多选择包含一个大致居中的对象,该对象填充了大部分图像,但感兴趣的对象在图像中的大小和位置有时会有很大的变化。解决这个问题的第一个想法是在图像的多个位置以滑动窗口的方式在多个尺度上应用ConvNet。然而,即使这样,许多观察窗口可能包含一个完全可识别的对象部分(例如,狗的头),但不是整个对象,甚至对象的中心。这导致了良好的分类,但定位和检测较差。因此,第二个想法是训练系统不仅生成每个窗口的类别分布,而且生成包含对象相对于窗口的边界框的位置和大小的预测。第三个想法是在每一个地点和大小为每一个类别积累证据。
许多作者建议使用ConvNets在多尺度上使用滑动窗口进行检测和定位,可以追溯到20世纪90年代早期的多字符串[20]、人脸[30]和手[22]。最近,ConvNets被证明在自然图像中的文本检测[4]、面部检测[8,23]和行人检测[25]方面具有最先进的性能。
一些作者还建议训练ConvNets来直接预测待定位对象的实例化参数,例如相对于观察窗口的位置或对象的姿势。例如Osadchy等人。[23]描述一个用于同时进行人脸检测和姿势估计的ConvNet。三维流形空间中的九个面由三维输出表示。歧管上的位置指示姿势(俯仰、偏航和侧滚)。当训练图像为人脸时,训练网络在流形上的已知姿态处产生一个点。如果图像不是一个面,则输出被推离流形。在测试时,到流形的距离表示图像是否包含面,流形上最近点的位置表示姿势。泰勒等人。[27,28]使用ConvNet来估计身体部位(手、头等)的位置,从而得出人体姿势。他们使用一个度量学习准则来训练网络以产生身体姿势流形上的点。Hinton等人。他们还建议训练网络计算特征的显式实例化参数,作为识别过程的一部分[12]。
其他作者提出通过基于ConvNet的分割来实现对象定位。最简单的方法是训练ConvNet将其观察窗口的中心像素(或体积图像的体素)分类为区域之间的边界[13]。但当区域必须分类时,最好进行语义分割。其主要思想是训练ConvNet将观察窗口的中心像素与其所属对象的类别进行分类,并将窗口作为决策的上下文。应用范围从生物图像分析[21],到移动机器人的障碍物标记[10]到照片的标记[7]。这种方法的优点是边界轮廓不必是矩形,区域也不必是边界良好的对象。缺点是它需要密集的像素级标签来进行训练。这种分割预处理或对象建议步骤最近在传统的计算机视觉中得到了广泛的应用,以减少用于检测的位置、比例和纵横比的搜索空间[19,2,6,29]。因此,可以在搜索空间的最佳位置应用昂贵的分类方法,从而提高识别精度。另外,[29,1]认为这些方法通过大幅度减少不可能的目标区域来提高准确性,从而减少潜在的假阳性。然而,在ILSVRC13检测数据集上,我们的密集滑动窗口方法的性能优于对象建议方法。
Krizhevsky等人[15]最近使用大型ConvNet展示了令人印象深刻的分类性能。作者还参加了ImageNet 2012竞赛,赢得了分类和本地化挑战。虽然他们展示了令人印象深刻的本地化表现,但还没有出版的作品描述他们的方法。因此,我们的论文首次明确解释了ConvNets如何用于ImageNet数据的定位和检测。
在本文中,我们使用术语“定位”和“检测”,这与他们在ImageNet 2013竞赛中的使用方式是一致的,即唯一的区别是所使用的评估标准,并且都涉及到预测图像中每个对象的边界框。
图1. 定位(顶部)和检测任务(底部)。左侧图像包含我们的预测(按置信度递减排序),而右侧图像显示的是基本事实标签。检测图像(底部)说明了检测数据集的较高难度,它可以包含许多小对象,而分类和定位图像通常包含单个大对象
在这篇论文中,我们探讨了三个计算机视觉任务的难度递增顺序:(i)分类,(ii)定位,(iii)检测。每个任务都是下一个任务的子任务。虽然所有的任务都是通过一个单一的框架和一个共享的特性学习库来解决的,但是我们将在下面的部分中分别描述它们。
在本文中,我们报告了2013年ImageNet大规模视觉识别挑战赛(ILSVRC2013)的结果。在这个挑战的分类任务中,每个图像被分配一个对应于图像中主要对象的标签。五次猜测可以找到正确答案(这是因为图像也可以包含多个未标记的对象)。定位任务类似于每个图像允许5次猜测,但是除此之外,每个猜测都必须返回预测对象的边界框。要想被认为是正确的,预测框必须至少与groundtruth匹配50%(使用PASCAL的并集超过交集的准则),并用正确的类进行标记(即每个预测都是一个关联在一起的标签和边界框)。检测任务与定位的不同之处在于,每个图像中可以有任意数量的目标(包括零),并且误报将通过平均精度(mAP)度量进行惩罚。定位任务是分类和检测之间的一个方便的中间步骤,它允许我们独立于特定于检测的挑战(例如学习背景类)来评估我们的定位方法。在图1中,我们展示了我们的定位/检测预测以及相应的基本事实的图像示例。请注意,分类和本地化共享同一个数据集,而检测也有其他数据,其中对象可以更小。检测数据还包含一组图像,其中某些对象不存在。这可以用于引导,但我们没有在这项工作中使用它。
我们的分类体系结构类似于Krizhevsky等人[15]的最佳ILSVRC12体系结构。但是,我们在网络设计和推理步骤上进行了改进。由于时间的限制,Krizhevsky模型中的一些训练特征没有被探索,因此我们期望我们的结果能够得到进一步的改进。这些将在未来的工作第6节中讨论。
图2. 第1层(顶部)和第2层过滤器(底部)
我们在ImageNet 2012培训集(120万张图片和C=1000个课程)上对网络进行培训[5]。我们的模型使用了Krizhevsky等人[15]在训练过程中提出的相同的固定输入大小方法,但是转向多尺度分类,如下一节所述。每个图像都被降采样,因此最小尺寸为256像素。然后我们提取5个大小为221x221像素的随机作物(及其水平翻转),并以128大小的小批量呈现给网络。网络中的权重随机初始化为(µ,σ)=(0,1×10−2)。然后通过随机梯度下降,伴随动量项0.6和ξ2重量衰减1×10−5进行更新。学习率最初为5×10−2,在(30、50、60、70、80)个时期后,学习率依次降低0.5倍。在分类器中的完全连接层(第6层和第7层)上使用速率为0.5的DropOut[11]。
我们在表1和表3中详细说明了体系结构的大小。请注意,在训练过程中,我们将此体系结构视为非空间的(大小为1x1的输出映射),而不是生成空间输出的推理步骤。第1-5层与Krizhevsky等人相似。[15] ,使用校正(“relu”)非线性和最大池化,但有以下区别:(i)没有使用对比度标准化;(ii)池区域不重叠;(iii)我们的模型具有更大的第一层和第二层特征图,这是由于跨距较小(2而不是4)。较大的步幅有助于提高速度,但会损害准确性。在图2中,我们展示了来自前两个卷积层的滤波器系数。第一层过滤器捕捉定向的边缘、图案和斑点。在第二层,滤光片有多种形式,有些是漫反射的,有些是具有强线结构或定向边缘的。
表1. fast模型的架构细节。特征图的空间大小取决于输入图像的大小,这在我们的推断步骤中是不同的(见附录中的表5)。这里我们展示训练的空间大小。第5层是最上面的卷积层。后续层完全连接,并在测试时以滑动窗口方式应用。在空间设置中,完全连接的层也可以看作1x1卷积。精确模型的相似尺寸可在附录中找到
为了给计算机视觉研究提供强大的功能,本文还开发了一个名为OverFeat的特征抽取器(http://cilvr.nyu.edu/doku.php?id=software:overfeat:start)。提供两种模型,一种快速准确的模型。表1和表3描述了每种体系结构。我们还比较了表4中参数和连接的尺寸。精确的模型比快速模型更精确(14.18%的分类错误,而表2中的16.39%),但是它需要的连接数几乎是fast的两倍。使用一个由7个精确模型组成的委员会,分类误差达到13.6%,如图4所示。
在[15]中,多视图投票用于提高性能:平均10个视图(4个角和中心,水平翻转)。然而,这种方法可以忽略图像的许多区域,并且当视图重叠时,计算是冗余的。此外,它只适用于单一尺度,而不是ConvNet将以最佳置信度响应的尺度。
相反,我们通过在每个位置和多个尺度上密集运行网络来探索整个图像。虽然滑动窗口方法可能在计算上对某些类型的模型是禁止的,但在ConvNets的情况下,它本质上是有效的(见第3.5节)。这种方法为投票产生了更多的视图,这在保持效率的同时增加了健壮性。在任意大小的图像上卷积ConvNet的结果是在每个尺度上C维向量的空间映射。
然而,上述网络中的总子采样比率为2x3x2x3,或36。因此,当密集应用时,这种结构只能在输入维上沿每个轴每36个像素生成一个分类向量。与10视图方案相比,这种粗略的输出分布降低了性能,因为网络窗口与图像中的对象没有很好地对齐。网络窗口与对象的对齐度越高,网络响应的置信度越强。为了避免这个问题,我们采取了类似于Giusti等人提出的方法。[9] ,并在每个偏移量应用最后一次子采样操作。这消除了这一层的分辨率损失,产生了x12而不是x36的总子采样比。
我们现在详细解释如何执行分辨率增强。我们使用6个比例的输入,这导致了不同分辨率的非制冷第5层地图(详见表5)。然后,使用图3所示的以下过程将这些集合并呈现给分类器:
(a) 对于单个图像,在给定的比例下,我们从未冷却的第5层特征图开始;
(b) 每一个未冷却的贴图都要经历3x3最大的池操作(非重叠区域),对于{0,1,2}的(∆x,∆y)像素偏移重复3x3次;
(c) 这将生成一组集合的特征图,对于不同的(∆x,∆y)组合,复制(3x3)次;
(d) 分类器(第6、7、8层)的输入大小固定为5x5,并为集合映射中的每个位置生成一个C维输出向量。该分类器以滑动窗口方式应用于集合映射,得到C维输出映射(对于给定的(∆x,∆y)组合);
(e) 不同(∆x,∆y)组合的输出映射被重塑为单个三维输出映射(两个空间维度x C类)。
图3. 以比例尺2的y维为例(见表5),分类输出图计算的1D图解(按比例尺)。(a) :20像素非制冷第5层特征图。(b) :非重叠3个像素组的最大池,使用∆={0,1,2}像素的偏移量(分别为红色、绿色、蓝色)。(c) :产生的6像素池映射,用于不同的∆。(d) :5像素分类器(第6、7层)以滑动窗口的方式应用于集合地图,每个∆产生2个像素×C的地图。(e) :通过C输出映射将其重塑为6像素
这些操作可以被视为通过池层将分类器的观察窗口移动1个像素,而无需进行子采样,并在下一层使用跳过核(邻域中的值是非相邻的)。或者等效地,在每个可能的偏移量应用最终的池层和完全连接的堆栈,并通过交错输出来组合结果。
对于每个图像的水平翻转版本,重复上述过程。然后,我们通过(i)在每个尺度和翻转上获取每个类的空间最大值;(ii)平均来自不同尺度和翻转的C维向量,以及(iii)从平均类向量中提取前1个或前5个元素(取决于评估标准)。
在直观的层面上,网络的两部分,即特征提取层(1-5)和分类器层(6-输出)以相反的方式使用。在特征提取部分,滤波器一次卷积在整个图像上。从计算的角度来看,这比在图像上滑动固定大小的特征提取器,然后从不同位置聚合结果要高效得多(我们的网络有6个刻度,在K20x GPU上处理一个图像需要大约2秒)。然而,对于网络的分类器部分,这些原则是相反的。在这里,我们想在图层5的不同位置和比例的特征图中寻找固定尺寸的表示。因此,分类器具有固定大小的5x5输入,并且完全应用于第5层映射。穷举池方案(使用单像素偏移(∆x,∆y))确保我们可以在分类器和特征映射中的对象表示之间获得精确的对齐。
在表2中,我们对不同的方法进行了实验,并将它们与Krizhevsky等人[15]的单网络模型进行了比较,以供参考。上述方法有6个量表,最高5个错误率为13.6%。正如预期的那样,使用较少的标度会损害性能:单标度模型更差,前5位误差为16.97%。图3中所示的精细步幅技术在单尺度范围内带来了相对较小的改进,但对于这里所示的多尺度增益也很重要。
表2. 验证集的分类实验。细/粗步幅是指应用分类器时使用的∆值的数量。精细:∆=0,1,2;粗:∆=0
图4. 测试集分类结果。在比赛中,使用平均7个快速模型,OverFeat产生了14.2%的前5名错误率。在赛后的工作中,OverFeat以13.6%的误差排名第五,使用更大的模型(更多的特性和更多的层)
我们在图4中报告了2013年比赛的测试集结果,其中我们的模型(OverFeat)通过对7个convnet(每个convnet都经过不同的初始化训练)的投票获得了14.2%的准确率,并在18个团队中排名第5。仅使用ILSVRC13数据的最佳准确率为11.7%。使用来自ImageNet Fall11数据集的额外数据进行的预培训将该数字提高到11.2%。在赛后的工作中,我们通过使用更大的模型(更多的特性和更多的层),将OverFeat结果的误差降低到13.6%。由于时间限制,这些较大的模型没有得到充分的训练,更多的改进有望及时出现。
与许多滑动窗口方法一次只计算一个输入窗口的整个管道不同,convnet在以滑动方式应用时天生高效,因为它们自然地共享重叠区域的共同计算。当在测试时将我们的网络应用于较大的图像时,我们只需将每个卷积应用于整个图像的范围。这将扩展每个层的输出以覆盖新的图像大小,最终生成输出类预测的映射,每个输入的“窗口”(视野)都有一个空间位置。如图5所示。卷积是自下而上应用的,因此相邻窗口的共同计算只需进行一次。
请注意,我们架构的最后一层是完全连接的线性层。在测试时,这些层被具有1x1空间范围的核的卷积运算有效地取代。整个ConvNet只不过是一系列的卷积、最大池化和阈值操作。
图5. ConvNets的检测效率。在训练期间,ConvNet只产生一个空间输出(顶部)。但当在测试时应用于较大的图像时,它会生成一个空间输出映射,例如2x2(底部)。由于所有层都是卷积应用的,因此较大图像所需的额外计算仅限于黄色区域。为了简单起见,此图省略了特性维度
从我们的分类训练网络开始,我们用一个回归网络代替分类器层,并训练它在每个空间位置和尺度上预测对象边界框。然后,我们将回归预测与每个位置的分类结果结合在一起,正如我们现在所描述的那样。
为了生成对象边界盒预测,我们同时在所有位置和尺度上运行分类器和回归器网络。由于它们共享相同的特征提取层,在计算分类网络后只需要重新计算最终的回归层。在每个位置上c类的最终softmax层的输出提供了c类对象在相应视野中存在(尽管不一定完全包含)的置信度得分。因此,我们可以为每个边界框指定一个置信度。
回归网络将来自第5层的汇集的要素地图作为输入。它有两个完全连接的隐藏层,大小分别为4096和1024个通道。最终输出层有4个单位,用于指定边界框边的坐标。与分类一样,由于∆x,∆y位移,整个过程有(3x3)个副本。架构如图8所示。
图6. 定位/检测管道。原始分类器/检测器为每个位置输出一个类和一个置信度(第一个图)。可以使用第3.3节(第二张图)中所述的方法提高这些预测的分辨率。然后回归预测对象相对于每个窗口的位置比例(第三张图)。然后将这些边界框合并并累加到少量对象中(第4张图)
图7. 回归网络生成的边界框示例,在合并到最终预测中之前。这里是一个单一的例子。根据目标的不同,在其他尺度下预测可能更为理想。在这里,大多数最初组织为栅格的边界框收敛到单个位置和比例。这表明网络对对象的位置非常有信心,而不是随机分布。左上角的图像显示,如果存在多个对象,它也可以正确识别多个位置。预测的边界盒的不同长宽比表明该网络能够处理不同的物体姿态
我们从分类网络中确定特征提取层(1-5),并使用预测边界框和真实边界框之间的l2损失来训练回归网络。最后的回归层是特定于类的,有1000个不同的版本,每个类一个。我们使用第3节中描述的同一组尺度来训练这个网络。我们将每个空间位置的回归网络的预测与地面真值边界框进行比较,在卷积内,将其移动到回归器平移偏移的参考框架中(见图8)。但是,我们不会在与输入视场重叠小于50%的边界框上训练回归器:由于对象大多位于这些位置之外,因此最好使用包含对象的回归窗口来处理它。
多尺度组合预测是多尺度组合预测的重要方法。单一尺度的训练在这个尺度上表现良好,在其他尺度上仍然表现合理。然而,多尺度训练将使预测在不同尺度间正确匹配,并成倍提高合并预测的置信度。反过来,这使我们能够很好地只使用几个刻度,而不是像检测中的典型情况那样使用多个刻度。行人检测[25]中,从一个比例到另一个比例的典型比率约为1.05到1.1,但是我们在这里使用了大约1.4的大比例(这个数字因每个比例而异,因为尺寸被调整以完全适合我们网络的步幅),这使我们能够更快地运行我们的系统。
我们使用下面的算法,通过应用于回归器边界框的贪婪合并策略来组合各个预测(见图7)。
(a) 将每个尺度s∈1…6的前k中的类集合分配给cs,通过对该尺度的空间位置取最大检测类输出来找到。
(b) 将回归器网络预测的Cs中每个类的边界框集分配给b s,跨越s比例尺的所有空间位置。
(c) 分配B←SSB
(d) 重复合并直到完成:
(e) (b1,b2)=argmin b1=b2∈b匹配得分(b1,b2)
(f) 如果比赛成绩(b1,b2)>t,则停止。
(g) 否则,设置B←B{B1,B2}∪框合并(B1,B2)
在上面,我们使用两个边界框的中心距离和框的相交面积来计算匹配分数。框合并计算边界框坐标的平均值。
图8. 回归网络在第5层特性中的应用,例如,在比例2。(a) 对于每个(3x3)∆x,∆y位移,此比例下回归器的输入空间上为6x7像素,256个通道。(b) 回归网第一层中的每个单元连接到layer5映射中的5x5空间邻域,以及所有256个通道。对层中4096个地震道的每个地震道以及(3x3)∆x,∆y偏移的5x5邻域进行移动,将得到2x3空间范围的地图。(c) 第二个回归层有1024个单元,并且是完全连接的(即紫色元素只连接到(b)中的紫色元素,跨越所有4096个通道)。(d) 回归网络的输出是2x3地图中每个位置的4矢量(指定边界框的边缘),以及每个(3x3)∆x,∆y位移
最后的预测是用最大的类分数来合并边界框。这是通过累计添加与预测每个边界框的输入窗口相关联的检测类输出来计算的。关于合并到单个高置信度边界框中的边界框的示例,请参见图6。在该示例中,一些海龟和鲸鱼边界框出现在中间多尺度步骤中,但在最终检测图像中消失。这些边界框不仅分类可信度较低(分别为0.11和0.12),而且它们的集合不像bear边界框那样一致,从而获得显著的置信提升。熊盒有很强的自信心(每个量表平均约0.5分)和高匹配分数。在合并到一个高置信度的框后,许多融合后的阳性框消失了。分析表明,与传统的非最大值抑制方法相比,我们的方法通过奖励边界盒一致性,对来自纯分类模型的误报更具鲁棒性。
图9. ILSVRC12验证集的定位实验。我们使用不同数量的量表,并使用单类回归(SCR)或逐类回归(PCR)进行实验
我们将我们的网络应用于Imagenet 2012验证集,使用为竞争指定的本地化标准。结果如图9所示。图10为2012年和2013年国产化比赛的结果(这两年的列车和试验数据相同)。我们的方法以29.9%的误差在2013年的比赛中获胜。
我们的多尺度和多视图方法是获得良好性能的关键,如图9所示:仅使用一个中心作物,我们的回归网络达到40%的错误率。通过在两个尺度上结合所有空间位置的回归预测,我们获得了31.5%的更好的误差率。添加第三和第四个刻度进一步提高了性能,误差为30.0%。
对于每个类(图9中的每个类回归器(PCR))使用不同的顶层,令人惊讶的是,在所有类中仅使用一个共享的网络(44.1%对31.3%)的性能并不优于仅使用一个网络。这可能是因为在训练集中,每个类用边界框标注的例子相对较少,而网络的顶层参数多出1000倍,导致训练不足。这种方法可以通过只在相似的类之间共享参数来改进(例如,为所有类别的狗训练一个网络,为车辆训练另一个网络,等等)。
检测训练与分类训练相似,但是以空间方式进行的。可以同时训练图像的多个位置。由于该模型是卷积的,因此所有权重在所有位置之间共享。与定位任务的主要区别是,当没有对象存在时,需要预测背景类。传统上,负面的例子最初是随机抽取来进行培训的。然后,最令人不快的负面错误会被添加到训练集中的训练中。独立的引导过程使得训练变得复杂,并且有可能在负面示例收集和训练时间之间出现不匹配。此外,还需要调整引导传球的大小,以确保训练不会在小范围内进行过度训练。为了避免所有这些问题,我们在运行中进行负向训练,通过为每个图像选择一些有趣的负面示例,例如随机的或最令人讨厌的。这种方法的计算成本更高,但使过程更简单。由于特征提取最初是用分类任务训练的,所以检测微调的时间也没有那么长。
在图11中,我们报告了ILSVRC 2013竞赛的结果,我们的检测系统以19.4%的平均精度(mAP)排名第三。我们后来用24.3%的mAP建立了一种新的检测技术。注意,排名前三的方法和其他团队之间有很大的差距(第四种方法产生11.5%的mAP)。此外,我们的方法与前两个使用初始分割步骤将候选窗口从大约200000减少到2000个的前2个系统有很大的不同。这种技术加快了推断速度,并大大减少了潜在误报的数量。[29,1]建议使用密集滑动窗口时检测精度会下降,而选择性搜索会丢弃不太可能的目标位置,从而减少误报。结合我们的方法,我们可以观察到传统的密集方法和基于分割的方法之间的类似改进。还应注意的是,我们没有像NEC和UvA那样对检测验证集进行微调。验证集和测试集的分布与训练集有很大的不同,仅此一项就可以将结果提高大约1个百分点。图11中两个OverFeat结果之间的改进是由于更长的训练时间和上下文的使用,即每个尺度也使用较低分辨率的尺度作为输入。
图10. ILSVRC12和ILSVRC13比赛结果(测试集)。我们的参赛作品在ILSVRC13本地化比赛中以29.9%的误差(前5名)获得冠军。请注意,这两年的培训和测试数据是相同的。OverFeat条目使用4个标度和一个单类回归方法
图11. ILSVRC13测试集检测结果。在比赛中,UvA以22.6%的地图排名第一。在赛后工作中,我们用24.3%的地图建立了一个新的状态。标有*的系统使用ILSVRC12分类数据进行预训练
我们提出了一种多尺度滑动窗口方法,可用于分类、定位和检测。我们将其应用于ILSVRC 2013数据集,目前在分类、定位和检测方面排名第四。本文的第二个重要贡献是解释了如何将convnet有效地用于检测和定位任务。这些问题在[15]中从未提及,因此我们是第一个在ImageNet 2012的背景下解释这一点的人。我们提出的方案包括对设计用于分类的网络进行重大修改,但清楚地表明ConvNets能够完成这些更具挑战性的任务。我们的本地化方法在2013年ILSVRC竞争中获胜,并显著优于2012年和2013年的所有方法。检测模型在比赛中表现优异,在赛后成绩排名第一。我们提出了一个集成的管道,可以执行不同的任务,同时共享一个共同的特征提取库,完全可以从像素中学习。
我们的方法仍可能在几个方面得到改进。(i) 对于本地化,我们目前还没有支持整个网络;这样做可能会提高性能。(ii)我们使用的是l2损失,而不是直接优化衡量性能的交集优于联合(IOU)标准。将损失换成这个应该是可能的,因为只要有一些重叠,借据仍然是可微的。(iii)边界框的替代参数化可能有助于解相关输出,这将有助于网络训练。
表3. 精确模型的体系结构细节。它与快速模型的区别主要体现在第一次卷积步长、阶数和特征映射数上
表4. 不同型号的参数和连接数
表5. 我们的多尺度方法的空间维度。使用了6种不同尺寸的输入图像,从而产生了不同空间分辨率的第5层非制冷特征图(尽管表中未说明,但都有256个特征通道)。(3x3)来自于我们的密集池操作(∆x,∆y)={0,1,2}。有关如何将这些转换为输出映射的详细信息,请参见文本和图3