我们提出YOLO,一种新的目标检测方法。以前的目标检测工作使得分类器能够进行检测。相反,我们将目标检测看作成一个回归问题来实现空间的目标边界分离和类概率预测。单个神经网络在一次评估中直接从完整图像预测边界框和类概率。由于整个检测是一个独立的网络,因此可以直接在端到端上进行检测优化。
我们的统一架构非常快。我们的基础YOLO模型以45帧/秒的速度实时处理图像。fast YOLO是一个较小的网络,每秒可以处理155帧的图像,同时和其他实时检测器相比,mAP可以达到两倍。与最先进的检测系统相比,YOLO产生更多的定位错误,但预测背景的假阳性更低。最后,YOLO学习对象的非常广泛。当从自然图像推广到其他领域(如艺术作品)时,它优于其他检测方法,包括DPM和R-CNN。
人们看一眼图像就立即知道图像中的对象是什么,它们在哪里,以及它们的相互关系。人类的视觉系统是快速准确的,允许我们执行复杂的任务,比如能够让我们用很少的思考就可以驾驶汽车。快速,准确的目标检测算法将允许计算机无需专门的传感器来驱动汽车,辅助设备便能够将实时场景信息传达给人类用户,并能分析通用的行为,相应机器人系统。
现在的检测系统重新使用分类器来实现检测。 为了检测一个目标,系统对目标进行分类,并在测试图像中对目标的各种位置和比例进行评估。系统使用类似于可变形部件模型(DPM)的滑动窗口方法,其中分类器在整幅图像空间中均匀采样[10]。
最新的方法,如R-CNN,使用区域提案方法首先在图像中生成潜在的边界框,然后在这些提出的框上运行分类器。分类后,进一步处理边框,消除重复检测,并根据场景中的其他对象重新排列框[13]。这些复杂的管道是缓慢的,难以优化,因为每个单独的组件必须独立训练。
我们将目标检测重新映射为单个回归问题,直接从图像像素到边界框坐标和类概率。使用我们的系统,您只需在图像上看一次(YOLO)就可以预测对象类别和位置。
YOLO更简单:见图1.单个卷积网络同时预测了这些框的多个边界框和类概率。YOLO使用整幅图像进行训练,直接优化检测性能。这种统一的模型相对于传统的方法具有以下几方面的优势。
首先,YOLO非常快。由于我们将帧检测作为一个回归问题,我们不需要一个复杂的管道。我们只需要简单的使用我们的神经网络对一副新的图像进行测试。我们的基础网络能够在Titan XGPU上达到45FPS,而快速版本的运行速度高于150 fps。这意味着我们可以在25毫秒的延迟内实时处理流视频。此外,YOLO平均精度是其他实时系统的两倍以上。有关我们的系统在网络摄像头上实时运行的演示,请参阅我们的项目网页:http://pjreddie.com/yolo/。
第二,YOLO在做出预测时是和全图有关联的。与滑动窗口和基于区域提议的技术不同,YOLO在训练和测试使用整个图像,因此它隐含地编码关于类及其外在的上下文信息。fast R-CNN,顶级检测方法[14],在目标检测时存在错误的背景块,因为它看不到更大的上下文。与fast R-CNN相比,YOLO的的背景错误量不足一半。
第三,YOLO可以学习通用的目标。当使用自然图像训练并对艺术品测试时,YOLO大幅优于DPM和R-CNN等顶级检测方式。由于YOLO具有高度的泛化性,因此在应用于新域或不可预期的输入时不太可能崩溃。
YOLO的准确性仍然落后于最先进的检测系统。虽然它可以快速识别图像中的对象,但它正在努力精确的定位一些对象,特别是小对象。我们在实验中进一步研究这些权衡。
我们所有的培训和测试代码都是开源的。还可以下载各种预训模型。
我们将对目标测的独立组件构成单独的神经网络。我们的网络使用整个图像的特征来预测每个边界框。它还可以同时预测所有类的所有边界框。这就意味着我们的网络是关于全图的和在图像中所有的目标。YOLO设计可实现端到端的训练和实时速度,同时保持较高的平均精度。
我们的系统将输入图像划分为S×S网格。如果对象的中心落入网格单元格中,则该网格单元负责检测该对象。
每个网格单元预测这些框的B个边界框和置信度分数。这些置信分数反映了模型对于边框包含对象的信心程度,以及它所预测的边框的准确程度。我们将置信度定义为。如果该单元格中没有对象,则置信度分数应为零。否则,我们希望信心分数等于预测框和ground truth 的IOU。
每个边界框包含5个预测:x,y,w,h和置信度。(x; y)坐标表示相对于网格单元格边界的框的中心位置。w,h是相对于整个图像的预测宽度和高度。最终,置信度预测代表预测边框和任何ground truth之间的IOU。
每个网格单元还预测C个条件类概率Pr(Class_i|Object)。这些概率适用于包含对象的网格单元。对于每个网格单元,我们只预测一组类概率,而不考虑框B个边框的数量。
在测试时间,我们将条件类概率和独立边框置信度相乘。,得出每个框的特定类置信度得分。这些分数对该类出现在边框中的概率进行编码,并且预测的边框和目标的匹配程度。
为了评估PASCAL VOC上的YOLO,我们使用S = 7,B = 2.PASCAL VOC有20个标记的类,所以C = 20。我们的最终预测是7×7×30张量。
我们将该模型实现为卷积神经网络,并对PASCAL VOC检测数据进行评估[9]。用最初的卷积层提取图像的特征,而全连接的层预测输出概率和坐标。
我们的网络架构受到图像分类的GoogLeNet模型的启发[34]。 我们的网络采用24个卷积层,其次是2个全连接层。我们简单地使用1×1的还原层,然后是3×3卷积层,类似于Lin等人[22] 来代替GoogLeNet使用的Inception 模块。完整网络如图3所示。
我们还训练一个快速版本的YOLO,旨在推动快速物体检测的边界确定。 快速YOLO使用具有较少卷积层(9个而不是24个)的神经网络,以及层中较少的滤波器。除了网络规模以外,YOLO和Fast YOLO之间的所有训练和测试参数都是一样的。
我们网络的最终输出是7×7×30预测张量。
我们在ImageNet 1000类竞赛数据集上预训练我们的卷积层[30]。对于预训练,我们使用图3中的前20个卷积层,之后是平均池化层和全连接层。我们训练这个网络大约用了一个星期,在ImageNet 2012验证集上实现单一作物分类的top-5达到了了88%,与Caffe的上的的GoogLeNet模型相当。我们使用Darknet框架进行所有训练和推理[26]。
然后我们将分类模型转为为检测模型。Ren等表明将卷积和连接的层添加到预训练网络可以提高性能[29]。在他们的例子中,我们添加了随机初始化权重的四个卷积层和两个全连接层。检测通常需要细粒度的视觉信息,所以我们将网络的输入分辨率从224×224增加到448×448。
我们的最后一层预测了类概率和边框坐标。我们将边框的宽度和高度归一化为图像的宽度和高度,使它们在0和1之间。我们将边界框x和y坐标参数化为特定网格单元格位置的偏移量,因此它们也在0和1之间。
我们对最终层使用线性激活功能,所有其他层使用以下leaky rectified线性激活:
我们使用平方和误差优化了模型输出。因为它很容易优化,所以我们使用它,但是它并不完全符合我们的最大化平均精度的目标。它可以通过分类误差来平衡加权定位误差,分类误差可能不理想。而且,在每个图像中,许多网格单元格不包含任何对象。将这些细胞的“置信”分数推向零,通常会使包含对象的细胞的梯度强度偏高。这可能导致模型不稳定,是训练过早的发散。
为了补救这一点,我们增加了边框坐标预测的损失,并减少了对不包含对象的框的置信度预测的损失。我们使用两个参数,λcoord和λnoobj来实现这一点。我们设置λcoord= 5和λnoobj= .5。
平方和误差和权重误差一样,在大目标和小目标中都存在。我们的误差度量应该反映出,大边框中的小偏差比小边框小得多。为了部分解决这个问题,我们直接预测边界框宽度和高度的平方根,而不是宽度和高度。
YOLO预测每个网格单元格的多个边界框。在训练时间,我们只需要一个边界框预测器来对每个目标负责。我们假设一个预测因子只对与当前目标ground -truth具有最高的IOU负责。这导致边框预测器之间的专业化。每个预测器在预测某些大小,长宽比或目标类时都会更好,从而改善整体召回。
在训练期间,我们优化以下多部分损失功能:
其中表示对象出现在单元格i中,表示单元格i中的第j个边界框预测器对于该预测是“负责的”。
请注意,如果对象存在于该网格单元中(前面讨论的条件类概率),损失函数只会惩罚分类错误。如果该预测因子对于ground truth框是“负责的”(即具有该网格单元中的任何预测变量的最高IOU),则它也仅惩罚边界框坐标误差。
我们在PASCAL VOC 2007和2012年验证数据集上训练了大约135个epochs的网络。在2012年的测试中,同样使用VOC 2007测试数据进行训练。在整个训练中,我们使用的批量为64,动量为0.9,衰减为0.0005。
我们的学习率计划如下:对于第一个epoch,我们将学习速度从0.001逐渐提高到0.01。如果我们从高学习率开始,我们的模型常常由于不稳定的梯度而发散。我们继续以学习率为0.01训练75 个epoch,学习率为0.001 训练30个epochs,最后再以学习率为0.0001训练30个epochs。
为了避免过拟合,我们使用dropout和数据增广。在第一个连接层之后,使用一个α= 0.5的dropout层[18]。对于数据增广,我们引入高达原始图像大小的20%的随机缩放和平移。我们还可以在HSV色彩空间中随机调整图像的曝光和饱和度最高达到1.5倍。
就像在训练中一样,预测一张图片只需要进行一次网络评估。在PASCAL VOC上,网络在一张图上预测98个边框和每个框的类概率。YOLO非常快,因为它只需要单一的网络评估,与基于分类器的方法不同。
网格设计在边框预测中强制实现空间多样性。 通常很清楚一个对象落入哪个网格单元,网络只能预测每个对象的一个框。 然而,多个单元格边界附近的一些大对象或物体可以被多个单元格很好地定位。 非最大抑制可以改善这些多重检测。 虽然对R-CNN或DPM的性能不是至关重要的,但采用非最大抑制可以提高2-3%mAP。
YOLO对边界框预测施加强大的空间约束,因为每个网格单元格仅预测两个框,并且只能有一个类。这种空间约束限制了我们的模型可以预测的附近对象的数量。我们的模型对于群体中的小物体识别不好,比如鸟群。
由于我们的模型学习了从数据中预测边界框,所以它努力将新概念或不寻常的长宽比或配置推广到对象。由于我们的架构具有来自输入图像的多个下采样层,能够使用相对粗糙的特征来预测边界框,。
最后,当我们训练近似检测性能的损失函数时,小边框和大边框中的错误被损失函数按照相同的方式处理。 大边框的小错误一般是良性的,但小边框中的小错误对IOU有更大的影响。我们的主要错误来源是定位错误。
目标检测是计算机视觉中的核心问题。检测流水线通常从输入图像(Haar [25],SIFT [23],HOG [4],卷积特征[6])提取一组鲁棒特征开始。然后,分类器[36,21,13,10]或定位器[1,32]用于识别特征空间中的对象。这些分类器或定位器以整个图像或图像中某些子集的滑动窗口方式运行[35,15,39]。我们将YOLO检测系统与多个顶级检测框架进行比较,突出显示关键的相似点和差异。
DPM 使用滑动窗口方法进行物体检测[10]。DPM使用不相交的管道来提取静态特征,对区域进行分类,预测高分区域的边界框等。我们的系统用单个卷积神经网络替代所有这些不同的部分。网络同时执行特征提取,边界框预测,非最大值抑制和上下文推理。网络训练内在的特征并优化用于目标检测,而不是静态的特征。我们的统一架构得到了比DPM更快,更准确的模型。
R-CNN及其变体使用区域建议而不是滑动窗口来查找图像中的对象。选择性搜索[35]生成潜在的边界框,卷积网络提取特征,SVM对框进行评分,线性模型调整边界框,非最大抑制消除了重复检测。这个复合管道的每个阶段必须独立精确地调整,所得到的系统非常慢,测试一张图片的时间需要40秒以上[14]。
YOLO与R-CNN有一些相似之处。 每个网格单元格提出了潜在的边界框,并使用卷积特征对这些框进行了评分。 然而,我们的系统对网格单元格提出了空间约束,这有助于减轻同一目标的多次检测。 与Selective Search的约为2000的边框相比,我们的系统每幅图像只有98个边框。最后,我们的系统将这些单独的组件组合成一个独立的优化模型。
fast和faster R-CNN专注于通过共享计算和使用神经网络来提出区域而不是选择性搜索来加速R-CNN框架[14] [28]。虽然它们比R-CNN提供了速度和准确性的改进,但仍然没有实时性能。 许多研究工作侧重于加速DPM管道[31] [38] [5]。 它们加速HOG计算,使用级联,并将计算推送到GPU。但是,实际上只有30Hz DPM [31]。 YOLO不是试图优化大型检测管道的各个组件,而是完全抛出管道,并且设计得很快。对于人脸和行人检的特定检测器可以被高度优化,因为需要处理更少的变化[37]。 YOLO是一种通用检测器,可以同时检测各种物体。
与R-CNN不同,Szegedy等训练卷积神经网络来预测感兴趣区域[8],而不是使用选择性搜索。MultiBox还可以通过用单个类预测替换置信度预测来执行独立的目标检测。然而,Multi-Box不能执行一般的对象检测,并且仍然只是一个较大的检测管道,需要进一步的图像分类模块。YOLO和MultiBox都使用卷积网络来预测图像中的边界框,但YOLO是一个完整的检测系统。
Sermanet等人 训练卷积神经网络进行定位,并用该定位器进行检测[32]。 OverFeat有效执行滑动窗口检测,但它仍然是一个不相交的系统。overfeat对于物体定位是比较好的选择,而不适合检测。与DPM一样,定位器在进行预测时只能看到定位信息。OverFeat不能对全文背景产生影响,因此需要大量后期处理才能产生连贯的检测。
我们与Redmon等人[27]设计抓取检测方法的工作类似。我们的边界框预测的网格方法是基于MultiGrasp系统的回归。但是,抓取检测比对象检测要简单得多。MultiGrasp只需要为包含一个对象的图像预测单个可掌握区域即可。它不必估计对象的大小,位置或边界或预测它的类,只需找到一个适合抓取的区域。YOLO预测图像中多个类的多目标的边框和类概率。
首先,我们将YOLO与PASCAL VOC 2007上的其他实时检测系统进行比较。为了了解YOLO和R-CNN变体之间的差异,我们探讨了YOLO和Fast R-CNN在VOC 2007的错误率。基于不同的错误情况,我们显示YOLO可用于重新定位fast R-CNN检测,并减少背景假阳性的错误,从而显著的提高性能。我们还提供VOC 2012的结果,并将mAP与当前最先进的方法进行比较。最后,我们展示了YOLO在两个艺术品数据集上比其他检测器更好,并能够更广泛地推广到新领域。
目标检测方面的许多研究工作重点在于使标准检测管道变快[5] [38] [31] [14] [17] [28。]然而,只有Sadeghi等人。真正的实现了实时运行的检测系统(30帧/秒或更好)[31]。我们将YOLO与其运行在30Hz或100Hz的DPM的GPU进行比较。尽管其他努力未达到实时检测的里程碑,但我们还是比较了相关的mAP和速度为了检测可用的精度 - 性能折衷。
fast YOLO是PASCAL中最快的对象检测方法。据我们所知,这是现存最快的目标检测器。具有52.7%的mAP,它比以前的实时检测准确率多了两倍。在保持实时性的同时,
YOLO将mAP提高到63.4%。 我们还使用VGG-16训练YOLO。这个模型比YOLO更准确,但也要慢得多。与使用VGG-16的其他检测系统进行比较是很有用的,但由于它比实时性慢,本文的其余部分将重点放在我们更快的模型上。 最快的DPM有效地加速了DPM,而不牺牲太多的mAP,但它仍然失去了2倍的实时性能[38]。与神经网络方法相比,DPM的检测精度相对较低也受到限制。 R-CNN 减去R用静态边框提案替代选择性搜索[20]。虽然它比R-CNN快得多,但仍然没有实时性,并且没有很好的建议和高的准确性。 fast R-CNN加速了R-CNN的分类阶段,但仍然依赖于选择性搜索,每个图像可能需要大约2秒钟才能生成边框提案。因此,它具有很高的mAP,但是在0.5 fps它仍然远离实时。 最近faster R-CNN用神经网络替代了选择性搜索以提出边界框,类似于Szegedy等人。[8]在我们的测试中,他们最准确的模型实现了7 fps,而一个更小,更不准确的模式运行在18 fps。fasterR-CNN的VGG-16版本高10 mAP,但也比YOLO慢6倍。Zeiler-Fergus faster R-CNN比YOLO慢2.5倍,但也不太准确。
为了进一步研究YOLO与最先进的检测器之间的差异,我们将对VOC 2007的结果进行详细分析。我们将YOLO与Fast RCNN进行比较,因为fast R-CNN是PASCAL 上表现最好的检测器,而且它的检测器很容易获取。
我们使用Hoiem等人的方法和工具。[19]对于测试时的每个类别,我们查看该类别的top-N个预测。 每个预测目标要么是正确的,要么就根据错误进行分类:
Correct: correct class and IOU > .5
Localization: correct class, :1 < IOU <.5
Similar: class is similar, IOU > .1
Other: class is wrong, IOU > .1
Background: IOU < .1
图4显示了在所有20个类别中平均的每个错误类型的细分。YOLO正努力提高目标定位的准确性。 与其他开源的结构相比,定位错误占据了YOLO错误的更多部分。 faster R-CNN定位错位更少,背景错误更多。 13.6%的最高检测是不包含任何物体的假阳性。 fast R-CNN比YOLO预测背景检测的可能性要高出3倍。
YOLO的背景错误远远低于Fast R-CNN。通过使用YOLO消除来自Fast R-CNN的背景检测,我们可以显着提高性能。对于R-CNN预测的每个边界框,我们检查YOLO是否预测类似的框。如果是这样,我们根据YOLO预测的概率和两个框之间的重叠来给出预测。
最好的fast R-CNN模型在VOC 2007测试集上实现了71.8%的mAP。当与YOLO合并时,其mAP将上涨3.2%至75.0%。我们还尝试将顶级的fast R-CNN模型与其他几种版本的Fast R-CNN相结合。这些集合在mAP之间产生了小幅增长.3%和.6%之间,详见表2。
来自YOLO的提升不仅仅是模型合奏的副产品,因为组合不同版本的Fast R-CNN几乎没有什么好处。相反,正是因为YOLO在测试时间发生了不同种类的错误,因此它在提升fast R-CNN的性能方面如此有效。不幸的是,这种组合并没有从YOLO的速度中受益,因为我们分别运行每个模型,然后结合结果。然而,由于YOLO如此之快,与Fast R-CNN相比,它不会增加任何显著的计算时间。
在VOC 2012测试集上,YOLO为57.9%mAP。低于现有技术水平,更接近使用了VGG-16的原始的R-CNN,见表3.我们的系统在小目标检测时,对于小目标和它周围的目标区分度不好。在诸如瓶,羊,电视/监视器的类别中,YOLO得分比R-CNN或Feature Edit低8-10%。然而,在其他类别,如猫和火车上,YOLO实现了更高的性能。我们组合的快速R-CNN + YOLO模型是最高性能的检测方法之一。 fast R-CNN与YOLO的结合度提高了2.3%,在公开排行榜上增加了5个点。
用于对象检测的学术数据集从相同的分布中抽取训练和测试数据。在现实世界的应用中,很难预测所有可能的用例,测试数据可能与系统[3]之前所看到的不同。我们将YOLO与毕加索数据集[12]和人物艺术数据集[3]中的其他检测系统进行比较,这两个数据集用于测试人物检测图像。
图5显示了YOLO与其他检测方法的比较性能。作为参考,我们在所有模型仅针对VOC 2007数据进行训练,给出VOC 2007行人检测AP。毕加索模特在VOC 2012上接受训练,而在艺术人物方面,在VOC 2010的训练。 R-CNN在VOC 2007上拥有较高的AP。然而,R-CNN应用于艺术品时大幅下降。R-CNN使用选择性搜索对自然图像进行调整的边界框提案。R-CNN中的分类器步骤只能看到小区域,需要很好的改进。 DPM在应用于图形时可以很好地保持其AP。先进的工作理论认为DPM性能良好,因为它具有强大的目标形状和布局的空间模型。虽然DPM没有R-cnn降的多,但它从较低的AP开始。YOLO在VOC 2007上表现良好,其AP在应用于艺术品时降低很少。与DPM相似,YOLO模拟对象的大小和形状,以及对象之间的关系以及对象通常出现的位置。艺术品和自然图像在像素级别上是非常不同的,但是它们在对象的大小和形状方面是相似的,因此YOLO仍然可以良好的预测边界框和检测。
YOLO是一种快速,准确的物体检测器,非常适合计算机视觉应用。我们将YOLO连接到网络摄像头,并验证其是否保持实时性能,包括从相机获取图像并显示检测的时间。所得到的系统是交互式的。 虽然YOLO单独处理图像,但是当连接到网络摄像头时,它的功能就像跟踪系统一样,它能在物体移动和发生改变时继续检测物体。 系统和源代码的演示可以在我们的项目网站上找到:http://pjreddie.com/yolo/。
我们介绍YOLO,一个统一的对象检测模型。我们的模型构建简单,可以直接在完整的图像上进行训练。与基于分类器的方法不同,YOLO针对与检测性能直接相关的损失函数进行训练,整个模型被联合训练。快速YOLO是最快的通用对象检测器,YOLO推动了最新的实时目标检测。 YOLO还推广到新的领域,使其成为实时检测中最好的,成为实时目标检测的最好选择。
[1] M. B. Blaschko and C. H. Lampert. Learning to localize objects with structured output regression. In Computer Vision–ECCV 2008, pages 2–15. Springer, 2008. 4
[2] L. Bourdev and J. Malik. Poselets: Body part detectors trained using 3d human pose annotations. In International Conference on Computer Vision (ICCV), 2009. 8
[3] H. Cai, Q. Wu, T. Corradi, and P. Hall. The crossdepiction problem: Computer vision algorithms for recognising objects in artwork and in photographs. arXiv preprint
arXiv:1505.00110, 2015. 7
[4] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In Computer Vision and Pattern Recognition,2005. CVPR 2005. IEEE Computer Society Conference on, volume 1, pages 886–893. IEEE, 2005. 4, 8
[5] T. Dean, M. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan,J. Yagnik, et al. Fast, accurate detection of 100,000 object classes on a single machine. In Computer
Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, pages 1814–1821. IEEE, 2013. 5
[6] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang,E. Tzeng, and T. Darrell. Decaf: A deep convolutional activation feature for generic visual recognition. arXiv preprint
arXiv:1310.1531, 2013. 4
[7] J. Dong, Q. Chen, S. Yan, and A. Yuille. Towards unified object detection and semantic segmentation. In Computer Vision–ECCV 2014, pages 299–314. Springer, 2014. 7
[8] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2155–2162. IEEE, 2014. 5, 6
[9] M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I.Williams, J. Winn, and A. Zisserman. The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision, 111(1):98–136, Jan. 2015. 2
[10] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan.Object detection with discriminatively trained part based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(9):1627–1645, 2010. 1, 4
[11] S. Gidaris and N. Komodakis. Object detection via a multiregion & semantic segmentation-aware CNN model. CoRR,abs/1505.01749, 2015. 7
[12] S. Ginosar, D. Haas, T. Brown, and J. Malik. Detecting people in cubist art. In Computer Vision-ECCV 2014Workshops,pages 101–116. Springer, 2014. 7
[13] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition
(CVPR), 2014 IEEE Conference on, pages 580–587. IEEE, 2014. 1, 4, 7 [14] R. B. Girshick. Fast R-CNN. CoRR, abs/1504.08083, 2015.2, 5, 6, 7
[15] S. Gould, T. Gao, and D. Koller. Region-based segmentation and object detection. In Advances in neural information processing systems, pages 655–663, 2009. 4
[16] B. Hariharan, P. Arbel´aez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In Computer Vision–ECCV 2014, pages 297–312. Springer, 2014. 7
[17] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. arXiv preprint arXiv:1406.4729, 2014. 5
[18] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012. 4
[19] D. Hoiem, Y. Chodpathumwan, and Q. Dai. Diagnosing error in object detectors. In Computer Vision–ECCV 2012, pages 340–353. Springer, 2012. 6
[20] K. Lenc and A. Vedaldi. R-cnn minus r. arXiv preprint arXiv:1506.06981, 2015. 5, 6
[21] R. Lienhart and J. Maydt. An extended set of haar-like features for rapid object detection. In Image Processing. 2002.Proceedings. 2002 International Conference on, volume 1,pages I–900. IEEE, 2002. 4
[22] M. Lin, Q. Chen, and S. Yan. Network in network. CoRR,abs/1312.4400, 2013. 2
[23] D. G. Lowe. Object recognition from local scale-invariant features. In Computer vision, 1999. The proceedings of the seventh IEEE international conference on, volume 2, pages 1150–1157. Ieee, 1999. 4
[24] D. Mishkin. Models accuracy on imagenet 2012 val. https://github.com/BVLC/caffe/wiki/Models-accuracy-on-ImageNet-2012-val. Accessed:2015-10-2. 3
[25] C. P. Papageorgiou, M. Oren, and T. Poggio. A general framework for object detection. In Computer vision, 1998.sixth international conference on, pages 555–562. IEEE,1998. 4
[26] J. Redmon. Darknet: Open source neural networks in c.http://pjreddie.com/darknet/, 2013–2016. 3
[27] J. Redmon and A. Angelova. Real-time grasp detection using convolutional neural networks. CoRR, abs/1412.3128, 2014.5
[28] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks.arXiv preprint arXiv:1506.01497, 2015. 5, 6, 7
[29] S. Ren, K. He, R. B. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. CoRR,abs/1504.06066, 2015. 3, 7
[30] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh,S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein,A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual
Recognition Challenge. International Journal of Computer Vision (IJCV), 2015. 3
[31] M. A. Sadeghi and D. Forsyth. 30hz object detection with dpm v5. In Computer Vision–ECCV 2014, pages 65–79.Springer, 2014. 5, 6
[32] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus,and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. CoRR,
abs/1312.6229, 2013. 4, 5
[33] Z. Shen and X. Xue. Do more dropouts in pool5 feature maps for better object detection. arXiv preprint arXiv:1409.6911,2014. 7
[34] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed,D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich.Going deeper with convolutions. CoRR, abs/1409.4842,
2014. 2
[35] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W.Smeulders. Selective search for object recognition. Internationaljournal of computer vision, 104(2):154–171, 2013.4
[36] P. Viola and M. Jones. Robust real-time object detection.International Journal of Computer Vision, 4:34–47, 2001. 4
[37] P. Viola and M. J. Jones. Robust real-time face detection.International journal of computer vision, 57(2):137–154, 2004. 5
[38] J. Yan, Z. Lei, L. Wen, and S. Z. Li. The fastest deformable part model for object detection. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2497–2504. IEEE, 2014. 5, 6
[39] C. L. Zitnick and P. Doll´ar. Edge boxes: Locating object proposals from edges. In Computer Vision–ECCV 2014, pages 391–405.Springer, 2014. 4