夜深人静了,就想写点什么,早在去年,BING刚一出现就对其进行了关注,CVPR2014的文章,作者提供了详细的源代码,得到了普遍的认可,本文谈谈对BING的一些个人理解,欢迎批评指正!
1. 算法思想
与之前介绍的edge boxes有异曲同工之妙,也是考虑了我们人类观察事物的习惯:先粗看,再细看。BING就是提供一种”粗略检测“的方法,先将目标大概的位置提取出来,主要目的是为了提速,与edge boxes不同,BING是基于学习的,换句话说,我们如果将检测人体,就可以用大量的人体样本训练BING,使得BING专注于人体的检测,这是BING的一大优势所在!下面我们的描述都是基于人体检测。
BING的算法共分为两个阶段,并且两个阶段都是基于SVM的,第一个阶段,用SVM进行二分类,一类是人体,一类是非人体。第二阶段,由于检测出来的BING框框的大小不一,有的大小,比如说高10个像素,宽200个像素,是人体的可能性明显较低,作者采用了对各个框框加权重的方式,对框框内包含人体的可能性进行了排序。两个阶段都基于SVM,干脆直接称呼为cascade SVM。
2. 算法流程
根据BING代码,给出训练阶段算法流程图,如下所示:
其中,SVM共分为两个阶段,这里说一说第二阶段的SVM,这个时候的训练样本其实就是proposal的得分,得分一定是标量,于是人体的proposal是正例,非人体的proposal就是负例,每个尺寸对应所有的训练样本得分,也就是说其实每个size都要进行一次SVM,公式如下所示:
我们要求的目标是<vi, ti>,只要做一个简单的变形<sl, 1>,我们就可以直接利用linear SVM求解了,作者提供了详细的源码, SVM用的是三方库liblinear中的函数。
在测试阶段,先用事先定好大小的各类扫描框扫描图像,得到各个尺度下的训练样本,这个时候再计算各自的得分s,然后利用非最大抑制(NMS)方法进行筛选,最后再利用上面的公式进行计算最终的得分。
重点说说作者在代码里面的一个大招,在第一阶段,正样本是proposal真值,负样本是随机提取的非目标proposal,根据这两类样本得到的滤波器w,在第二阶段,作者没有沿用第一阶段得到的正负样本,而是又重新基于w过滤了每一幅图像,得到了一堆proposal(经过NMS处理过的),注意这个时候的proposal完全不知道类标哈,那怎么确定类标呢?方法是拿这些新proposal和第一阶段的真值propoals比较(重叠面积),然后将这些新proposal进行分类,以及计算各自对应的尺度和得分s,进一步,每个尺度都计算<v, t>。
我的疑问是:第二阶段为什么要重新生成proposal,直接利用第一阶段弄好的proposal不行吗?不行吗?不行吗?重要的问题要问三遍。
作者是否有什么不可告人的秘密,不可告人的秘密,不可告人的秘密。。。。。
大家都长点心想想吧!!!
再者就是NMS方面的处理,一般我们在人脸检测中使用NMS,都是基于重叠面积选择最大的那个框作为检测框(可以将一个目标的所有检测框看成一个局部区域),但是在BING第二阶段训练中是对每一个像素都要计算滤波器的得分,此处作者在代码中采用的方式较为简单,其直接定义一个邻域(NSS宽度),现将所有像素的代价值从大到小排序,然后将每个邻域内最高得分值的像素保留,剩余的全部去除。按照正常的流程来说,应该在领域内计算1到次高得分所对应的窗口与最高得分窗口之间的重叠面积,满足阈值的窗口就要保留,否则抑制掉,这意味着可能在一个邻域内可能会存在多个窗口得以“幸存”。作者可能是考虑到这么做比较耗时,所以未采用传统方式。
3. 结论
BING提供了一种基于学习的目标检测方法,准确率算好的了,进一步可以基于BING框(proposal)进行细致的目标检测,相比较于滑窗方式而言,速度成倍的提高(我采用了评分最高的100个),正检率比滑窗方式低了一些,误检率没有明显提高,速度提高了3倍左右,这种算法思想果断是目标检测以后的一大趋势了!