文献笔记《What makes for effective detection proposals?》



查看原文:http://www.wyblog.cn/2017/02/17/%e6%96%87%e7%8c%ae%e7%ac%94%e8%ae%b0%e3%80%8awhat-makes-for-effective-detection-proposals%e3%80%8b/

Abstract

这是一篇关于object detection的综述性文章,其一共列举了12种region proposal的方法,并在PASCAL、ImageNet、MS COCO等常见数据集上使用DPM、R-CNN and Fast R-CNN等框架进行深入分析,分析表明提高proposal 的localisation accuracy与提高reall同样重要。同时,文献提出了一种新的average recall评价标准,它综合了recall率、localisation精度。

Introduction

目前最成功的的od方法还是众所周知的滑动窗口法,但是对一幅图基本需要10^4到10^5个窗口,如果考虑object的aspect ratio,那窗口又得增加到10^6到10^7个了。于是,顺势提出了“detection proposals”的方法,它是在保证高检测质量情况下同时减少计算量的折中办法。总结下,这篇文献的贡献就是,比较了几种不同的detection方法,讨论了 在图片受到扰动后detection的鲁棒性,提出了新的评价标准即AR并在数据集上验证。

Detection proposal methods

文中说通常检测方法分为了两类:
  • grouping methods,例如SelectiveSearch,其先对图片分隔,然后根据相邻region的相似性进行group操作。
  • window scoring methods,例如Objectness,这种方式就是直接划定多个边框,然后打分取高者。
首先overview一下所有方法以及其表现: 以上也能证实,分两类的标准就是output是segments还是score了。同时,repeatability跟recall很难达到统一,速度快的查全率较低,从上图总的来看,EdgeBoxes与SelectiveSearch似乎效果比较好,尤其EdgeBoxes,耗费时间仅仅0.3s。 通过查阅资料表明,EdgeBoxes是提取了图片中图像的轮廓,通过对轮廓计数来确定窗口的置信度,它存在一个缺陷,就是对于单个物体的分离辨识度不高,比如一张图里七八个人站在一起,可能这七八个人就会被整体框成一个proposal。SelectiveSearch算法它不含有需要学习的参数,不过它需要手工去设计merge superpixels(超像素,简单说就是将 邻近相似的 几个像素通过某个函数封装成一个像素)的特征,然而不影响它优异的表现,使得许多ob框架都使用它作为proposal method,例如R-CNN及Fast R-CNN。

grouping methods

作者将grouping methods又分了三类,分别为grouping superpixels(SP)、graph cut(GC)、edge contours(EC)。
  • SP方式无需学习,首先将图片分裂为superpixels形式,然后根据人为定义的距离参数进行聚合,类似于KNN。
  • GC方式是将图片进行切割,切割的方式可以是通过随机初始化的种子点,然后反复多次,然后根据特征进行排序,这就导致了它的复杂度非常高,开销大。
  • EC就是得到图像轮廓信息,然后再进行聚合,可能结果精确度不够高。

windows scoring  methods

这个方法的思路与之前的有所不同,它是通过先生成候选框,然后通过计算候选框的置信度来过滤掉分数低的框,然后得到proposal的。比较出名的方法就是:
  • Objectness,直接从图片中选出salient lications作为proposals,然后根据colour、edges、location、size、superpixel straddling等进行打分。
  • Bing,通过edge特征训练了一个简单的线性分类器,并将分类器应用到滑动窗口里面对窗口进行分类,速度非常快。然而研究表明,分类器实际上作用影响不是很大。
  • EdgeBoxes,上文已经总结过,它不需要学习参数,通过计算边缘个数来进行打分排序筛选。

Alternative proposal methods

  • Multibox,通过训练一个CNN回归出固定个数的proposals,避免了整幅图像的划窗,再进行打分过滤。

Baseline proposal methods

  • SlidingWindow基于图片尺寸生成proposal,Uniform及Gaussian是stochastic(随机)的,只有Superpixels是基于图片内容的。

Proposal repeatability

这里的repeatability是指在图片经过各种修改加噪声之后或者就是一幅相似的图片,proposal出region的复现性属性。在比较各种算法之前,作者就通过各种算法的特性,使得每一种算法每次生成的proposal个数控制到一样。 重点在这个repeatability计算方式上,文献中定义,纵坐标是recall值,横坐标是IoU阈值(即为proposal框与ground true框的交叠率),绘制的曲线就是recall在每一个IoU阈值下的取值,取值范围两者都为0~1,而repeatability值就是绘制出的曲线下的面积。 文献给出了给图片加入perturbations的几种方式: 并且给出了在各种perturbation的情况下的测试结果,这里省略。 最后,作者作出结论,Bing算法对图像的微小变化不敏感,它的表现很好,原因在于它留下了IoU值>=0.5的所有框作为proposal。同时,EdgeBoxes表现也不错,具体原因作者只是估计它没有使用像素到超像素这一方式,而是完全用了另外一个思路——轮廓。

Proposal recall

文献指出了传统的metrics(指标)已经不适用了,于是提出了三种新的metrics:
  • 对于固定数量的proposals,变化的IoU阈值对应的recall值。
  • 对于固定的IoU阈值,对于不同proposal数量去计算recall值。
  • 作者自定义方法,计算IoU阈值在0.5~1时recall的平均值。
文献绘制了不同算法在PASCAL2007数据集上不同proposals个数的情况下的repeatability曲线: 从以上曲线中可以注意观察到两条曲线,一条是粉红色的Bing曲线,另一条是棕色的Edgeboxes曲线,这两条曲线都是在IoU阈值小幅上升时,recall值迅速衰减下降。 在各种数据集的测试下,得出了一些结论,这里只关注Bing以及EdgeBoxes。Bing对于IoU阈值的选取非常敏感,所以对于候选框生成的位置非常敏感。EdgeBoxes在不同proposal数目下表现差异不大,在AR这个标准下,EdgeBoxes在proposal较少时表现较好。

Using the DP

在这一部分,作者用了两种object detectors来分析以上那些detection proposals方法,第一种是LM-LLDA detector,它是DPM(基于部分行人检测)的一个变种,第二种是R-CNN/Fast R-CNN。文章中使用了1000个proposals作为实验样本,而实验目的则有两个,一是为了测试前文不同的proposal方法的效果如何,二是看看前文的各种metrics跟最后的detection结果的关联性如何。 这一部分实验过程及数据有些看不懂,待学习了检测框架后再反过来看。文献最后得出的结论是:
  • IoU值越高,表示proposal的框与ground true交集越大,能反映出的是它定位越准确,经过detector后的得分也越高,当然不同的detector有不同表现。
  • 作者通过数据证明,mAP值与其自己提出的AR值具有强相关性,证明了AR值作为评价标准的合理性。

Discussion

  • 对于repeatability这个指标,文献里实验的所有proposal methods都存在瓶颈,对图片做微小的改动,都会导致每次产生一系列不同的proposals出来。
  • 对于Localisation Accuracy这个指标,其代表的其实就是IoU这个指标,当proposal定位越准确,那么对于OD来说越好。
  • MCG,SeletiveSearch,EdgeBoxes,Rigor和Geodesic是目前表现最好的5个方法,其中速度以EdgeBoxes和Geodesic为优。
  • 随着计算能力的增强,划窗方式势必是最直接有效的,还需要考虑其他优化算法吗?

文献地址

https://arxiv.org/abs/1502.05082


查看原文: http://www.wyblog.cn/2017/02/17/%e6%96%87%e7%8c%ae%e7%ac%94%e8%ae%b0%e3%80%8awhat-makes-for-effective-detection-proposals%e3%80%8b/

你可能感兴趣的:(文献笔记《What makes for effective detection proposals?》)