OverFeat论文笔记

论文全名:《OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks》

论文链接:https://arxiv.org/abs/1312.6229v4

参考博客:

hjimce大神博客:https://blog.csdn.net/hjimce/article/details/50187881

https://blog.csdn.net/buwan86658/article/details/78054081

-------------------------------------------------------------------------------我是分割线---------------------------------------------------------------------------

 

背景:

本篇论文是Yann LeCun大神带领NYU的师生在CVPR2014上发表的一篇论文,LeCun大神真的是神经网络的虔诚践行者,一出来就是要用神经网络把检测全部搞定。rbg大神同样在CVPR2014年提出来的R-CNN才部分采用CNN,经过一年的迭代才提出了Faster R-CNN(fast R-CNN也是在2015年提出来的)。PS.但在目标检测概述中,这篇论文被提及的次数较少,这个问题算是个八卦问题吧,可能是因为某些侧重点的原因,待我把state of the art 的论文都看一遍之后,再回头来看这些问题。

正题:

论文写的很耐心,可能是因为发布的时间较早的缘故,Introduction写了近2页详细的描述了当下的主流方法。其中作者也很明确的写了:“Our paper is thus the first to provide a clear explanation how ConvNets can be used for localization and detection for ImageNet data.”

第2节完整的并顺便科普了一些基本概念,如:Localization和detection的任务分别是什么。

接下来就来到了重点章节,

3.1中,“Our model uses the same fixed input size approach proposed by Krizhevsky et al. [15] during training but turns to multi-scale for classification as described in the next section”明确表示了,该网络大体上是采用类AlexNet的结构来训练的,当然有一些细节做了调整。

3.2中作者正式解释了:we release a feature extractor named “OverFeat”,这个结构大体跟AlexNet类似,但是很多细节不一样,主要是因为:The fully-connected layers can also be seen as 1x1 convolutions in a spatial setting(这一点会被后来的FCN放大使用)。所以作者提出的两个结构,一个fast,一个accurate如下:

OverFeat论文笔记_第1张图片

OverFeat论文笔记_第2张图片

其中,filter size和stride设置不一样,在fast中fc layer1中也是一个3072的channels,也是由于讲这些操作都是按照卷积的操作来进行的。

3.3是核心章节的核心,其中介绍了多尺度图片处理的方案(放到3.5中介绍了)和offset的方式,直接看result,可以很好的看出作者提出的这两个创新点的影响。

OverFeat论文笔记_第3张图片

可以看出,在多个scales和带有offset的pool操作时有提升的。在顶配操作:7个accurate网络,4个scales和∆ = 0, 1, 2的offset操作,还是提升了7个百分点。作者的3.5方案已经在FCN等发扬,offset等我后续在确认一下

Localization

感觉作者在后面这两节介绍的相对就有点少了:we replace the classifier layers by a regression network and train it to predict object bounding boxes at each spatial location and scale.

We fix the feature extraction layers (1-5) from the classification network and train the regression network using an ℓ2 loss between the predicted and true bounding box for each example.

这两段把大部分的内容写的差不多了。


 

 

 

 

 

你可能感兴趣的:(深度学习)