faster RCNN/YOLO/SSD算法的比较

只要是做过物体检测(object detection)的人,都会对这三种算法比较熟悉,起码听说过。那么这三种算法各自有什么特点呢?为什么他们不能相互取代?接下来我们将慢慢分析。

在介绍具体算法之前,先来看下常用的数据集

pascal voc包含20类
其中,voc 07:9,963 张图片中包含了24,640个已标记物体
voc 12:测试数据集没有公开,在训练和验证数据集中的11540 张图片包含了27450个已标记的物体

coco在物体检测任务中包含80类(主要类别有91类)
coco2015 : 328k 张图片中大约有2.5 million个已标记的物体

faster RCNN

这个算法是一个系列,是RBG大神最初从RCNN发展而来,RCNN->fast RCNN->faster RCNN,那么简单的介绍下前两种算法。

首先RCNN,在这个算法中神经网络实际上就是一个特征提取器,作者用selective search的方法提取了一定数量(2000个)region proposal,然后对region proposal做卷积操作,将fc7这一层的特征提取出来用于分类和坐标回归,这里分类用的还不是softmax而是SVM。这个算法的贡献主要是提出了一种有效的特征利用方式,后续很多人在工程实践中都是用的fc7层的特征来做基于faster RCNN的应用。

到fast RCNN,fast RCNN将除了region proposal提取以外的部分都用一个网络来实现,与RCNN不同的是,1)他的分类和坐标回归的loss一起通过反向传播来更新网络参数;2)它在提取feature时并不会把每个region proposal都放入提取,而是将整幅图提取特征后,用坐标映射的方式提取feature,这样有两个好处a)快,因为一张图片只走一次网络;b)feature的特征受感受野的影响,能融合相邻的背景的特征,这样“看”得更远一些。

最后是faster RCNN,作者发现selective search的方法导致算法没有实时性的可能,因此,作者尝试用region proposal network来取代selective search的方法,并且与fast RCNN的分类和回归网络共用特征提取层,因此这样并不会带来太多额外的计算量,而实验结果也表明了,作者这样做确实提高的速度,并且还提高了准确率。因此,综上所述,region proposal network是faster RCNN的精华所在,也是精度高于以及速度慢于后续YOLO和SSD算法的原因。

YOLO

YOLO个人平时接触的不多,对YOLO v2也知之甚少,不敢妄言,这里简单介绍下YOLO v1

YOLO的一个贡献是将检测问题转化为了回归问题,相信这句话很多人见过很多次了。那到底是什么意思呢?指的就是之前faster RCNN是先分两步,先提取region proposal,也就是判断是前景还是背景的问题,之后再分类,具体看前景是什么东西。而YOLO直接通过regression一次既产生坐标,又产生每种类别的概率。

YOLO的特点在于快,其中一方面来源于regression机制,还有一个原因就在于region proposal的提取过程了。再YOLO中很少提region proposal的概念,但是为了类比faster RCNN我们可以这样理解,YOLO中粗暴地分成了7X7的网格,每个位置默认可能属于2个object,那么事实上就是提取了98个region proposal,而faster RCNN是一种滑动窗口机制,每个feature map上都回归出9个anchor,大约一共20k个anchor,在通过非极大值抑制等方法最终会得到300个region proposal。两者之间候选框差别巨大,因此,faster RCNN会准一点也是情理之中,而既然每个位置都要精修,当然效率就会低很多,也就不能满足实时性要求了。另外,YOLO精简了网络,比VGG要稍微计算量小一些,可能也会加快一些速度,但这些计算量比起前面提到的两点已经不足为道。

SSD

SSD有人说是faster RCNN和YOLO的结合体,是有道理的。首先说SSD的贡献,它的贡献在于它利用了多层网络特征,而不仅仅是FC7。那么为什么说它像YOLO呢,这主要是因为,SSD还是借鉴了detection转化为regression的机制,而说它像faster RCNN是因为借鉴了anchor的机制,只不过它的anchor不是每个位置的精调,是跟YOLO一样画网格,然后在网格上产生anchor,由于利用了多层特征,anchor的scale每层都不同,因此产生了较多的超参数,增加了训练难度。

所以说,三种算法在实际应用中faster RCNN鲁棒性会可能会强一些,但是鱼与熊掌不可兼得,速度也会较慢。

你可能感兴趣的:(深度学习相关(cs231n))