最近,学习了Adaboast,并阅读了大牛Paul Viola和Michael Jones的《Robust Real-Time Face Detection》这篇文章,尽管文章思路及用到的方法的不难,但是细细一整理,还是有很多值得推敲的地方。那么我们就从这篇文章说起。
看完这篇文章,第一感觉是似懂非懂,所以就细细地梳理了一下思路。总的来说,这篇文章所涉及的方法,和普通机器学习思路是一样的,分为训练和测试两步,其中训练又分为两步,1,通过Adaboast方法对图像的特征进行降维,选择出最利于图像分类的有限个特征(也同时是Adaboast的弱分类器);2,又一次使用Adaboast方法对图像的特征进行组合,成为级联侦测器(Cascade);测试就是通过训练好的级联侦测器对图像进行人脸检测,下面,我们就细细讲明以上几个步骤:
一,训练之对图像特征进行降维。
(1)Haar-like特征
在这里,我们使用的图像特征Haar-like特征,Viola和Jones在此基础上,使用3种类型4种形式的特征。
3种类型分别为:2-矩形特征、3-矩形特征、4-矩形特征。
如上图所示,这是4种形式的特征模板,内有白色和黑色两种矩形,并定义该模板的特征值为白色矩形像素和减去黑色矩形像素和。通过改变特征模板的大小和位置,可在图像子窗口中穷举出大量的特征。上图的特征模板称为“特征原型”;特征原型在图像子窗口中扩展(平移伸缩)得到的特征称为“矩形特征”;矩形特征的称为“特征值”。那么在一幅训练图像中,这种特征模板有多少呢?在查找了大量资料,发现证明过程如下:
所以,我们得出如下表:
(2)积分图
积分图主要的思想是将图像从起点开始到各个点所形成的矩形区域像素之和作为一个数组的元素保存在内存中,当要计算某个区域的像素和时可以直接索引数组的元素,不用重新计算这个区域的像素和,从而加快了计算。点(x,y)处的积分图,定义为点(x,y)左上角所有像素和。例如图:
1,2,3,4分别是积分图的相对应位置的图,所以D区间的像素和由下列公式得出:
1=A; 2=A+B; 3=A+C; 4=A+B+C+D
所以,D=(4+1)-(2+3);
由给出的harr模板,特征区域均是黑-白,并且黑白区域是相邻的,所以the two-rectanglefeatures可以由6个积分点计算,three-rectangle features可以由8个积分点计算,our-rectangle features可以由9个点计算。
(3)Adaboost特征降维
由上面使用的Harr特征,我们知道特征特别多,所以我们必须要对特征进行降维,这里使用了Adaboost方法,其中每一个弱分类器使用了决策桩,决策桩就是使用了一个特征和阈值,对样本分类,使错误率最小,公式如下:
其中,x为输入图像,f为Harr特征模板对应的那种计算方法,P是方向因子,取+1或者-1,这影响着不等式的方向,sita是阈值;
Adaboost就是算法的训练过程就是挑选最优弱分类器,并赋予权重;其算法如下:
这是普通的Adaboost训练算法,其中在选择弱分类器的时候,要遍历所有的样本、所有特征值、所有阈值,因此作者给出了一个相对快速的遍历选择方法:
这样,我们就选出了T个弱分类器,也就是我们认为的T个最适合判断是否为人脸的特征,接下来就是通过这T个特征(弱分类器)进行组合组成强分类器。
二,级联侦测器的组成
实际上,根据上面第一个Adaboost就可以组成一个强分类器,但是这样训练会花费大量的时间,因此,作者设计出了级联侦测器,通过层层强分类器级联,使训练时间大大减少,示意图如下图:
如上图所示,在每层强分类器训练时所需要的样本是前面各层级联分类器后所剩下的样本(训练样本减去前面几层判断为非人脸图像的真实分人脸图像—也就是TN),所以样本为TP,TN和FP,这些样本的存在使该层强分类器的训练比上一层会更加的严格,算法流程如下:
其实这也是一个Trade-off的过程,以平衡False positive rate和correct detection rate,使两个比率均能达到良好的效果。整个级联侦测器作用样本过程如图:
这样对样本的训练过程就完成了。
三,利用级联侦测器测试(作用测试集)
在训练过程中,使用的训练样本都很小,如该文章所使用的样本为24*24,但是一般测试样本会比较大,比说说300*200,这就需要级联侦测器与测试集大小匹配,
就这样,我们用级联侦测器对测试集进行滑动进行判断,该区域是否是人脸图像,最终可以得出结果,例如: