很久没有写博客了,一晃几年就过去了,为了总结一下自己看的一些论文,以后打算写一些自己读完论文的总结。那么,今天就谈一谈人脸检测最为经典的算法Haar-like特征+Adaboost。这是最为常用的物体检测的方法(最初用于人脸检测),也是用的最多的方法,而且OpenCV也实现了这一算法,可谓路人皆知。另外网上写这个算法的人也不在少数。
首先说明,我主要看了《Rapid Object Detection using a Boosted Cascade of Simple Features》和《Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection》这两篇论文。
我们知道人脸检测是很不容易的,我们在实际进行人脸检测的时候,需要考虑算法的运行速度,以及算法的准确度,单单实现这两个指标就已经很不容易了。传统的人脸检测方法(指的是在Haar-like特征出来之前的方法,也就是2001年之前了)一般都是基于像素级别进行的,常见的方法有基于皮肤颜色的方法,这些方法的缺点就是速度慢,几乎不能实现实时性。
首先给出训练过程
输入图像->图像预处理->提取特征->训练分类器(二分类)->得到训练好的模型
接着给出测试过程
输入图像->图像预处理->提取特征->导入模型->二分类(是不是所要检测的物体)。
接下来就对算法的关键的步骤进行介绍。
我们知道不同的光照对于所处理的图像有影响,为了减低这种影响我们需要首先对图像进行归一化(在《Rapid Object Detection using a Boosted Cascade of Simple Features》中称之为归一化,而在《Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection》中称之为Lighting Correction,即光照修正)。
那么如何进行光照修正:
其实这里我看到《Rapid Object Detection using a Boosted Cascade of Simple Features》中第六页它写成了 σ2=μ2−1N∑xx2 。
首先介绍一下Haar-like特征。如下图所示,Haar-like特征是很简单的,无非就是那么几种,首先介绍论文《Rapid Object Detection using a Boosted Cascade of Simple Features》中提到的三种特征,分为两矩形特征、三矩形特征、对角特征。当然还有很多分类方法,这里先不介绍,下面在继续讲。先介绍如何计算特征。
图1 三种类型的Haar-like特征
计算特征很简单,就是拿黑色部分的所有的像素值的和减去白色部分所有像素值的和。得到的就是一个特征值。
说的很简单,但是在工程中需要进行快速计算某个矩形内的像素值的和,这就需要引入积分图的概念。
需要注意的是这里的积分图输入的图像是经过归一化的图像哈。与上面用到的符号不一样了。
首先给出积分图的定义:
那么我们实现的时候是如何进行计算积分图的呢?
上面这两个递归公式是什么意思呢?就是首先每一行都递归计算s(x,y)(公式中也可以看出是按行计算的),每一行首先都是计算s,计算完毕之后在每一列都计算ii(x,y)。这样扫描下去就可以计算好了积分图了。这种方法跟动态规划的思想有点类似。
好了计算好了积分图,我们接下来就可以利用积分图来加速计算某个方块内部的像素的和了。
图中的大框是积分图,为了讲解如何计算任意矩形内的像素值,我们画出四个区域A、B、C、D,并且图中有四个位置分别为1、2、3、4。我们要计算D区域内部的像素和该怎么计算?
我们记位置4的左上的所有像素为 rectsum(4) ,那么
D位置的像素之和就是 rectsum(1)+rectsum(4)−rectsum(2)−rectsum(3) 。
是不是有了积分图,就可以很快地计算出了任意矩形内的像素之和了?
我们前面提到有三种类型的Haar-like特征。
其中二矩形特征需要6次查找积分图中的值,而三矩形特征需要8次查找积分图中的值,而对角的特征需要9次。
那么,如果给定一个窗口,窗口的大小为24*24像素,那么我们得到的特征有多少个呢?
计算公式如下:
可以参考本文的第一幅图中的ABCD个特征那幅图。
在输入图像之后首先计算积分图,然后通过积分图在计算上述三种特征,如果窗口的大小为24*24像素,那么生成的特征数目有16000之多。
Adaboost算法中需要定义弱分类器,该弱分类器的定义如下:
假设训练样本图像为 (x1,y1),…,(xn,yn) ,其中 yi=0,1 ,0表示负样本,1表示正样本。
首先初始化权重 w1,i=12m ,初始化 yi为22l ,其中m表示负样本的个数,l表示正样本的个数。
For t=1,…,T :
(1).首先归一化权重: wt,i=wt,i∑nj=1wt,j 。
(2)对于每一个特征,我们都训练一个分类器(记为 hj ),每个分类器都只使用一种特征进行训练。
那么对于该特征的误差 ϵj 可以这么衡量: ϵj=∑iwi|hj(xi)−yi| ( j 表示的是某个特征的索引,而 i 表示的是所有的所有的窗口。)
(3)选择拥有最低误差的那个分类器记为 ht 。
(4)更新权重 wt+1,i=wt,iβ1−eit (如果分类正确则 ei=1 ,错误 ei=0 )。
End For
那么最终的强分类器为
上述的训练过程是远远不够的,还需要对若干个分类器进行级联,这样才能够取得更高的检出率,并且取得较高的false positive rates。
图3 多个分类器的级联
如图3所示,首先第一个分类器的输入是所有的子窗口,然后通过级联的分类器去除掉一些子窗口,这样能够有效地降低窗口的数目,具体的去除方法就是如果任何一个级联分类器提出拒绝,那么后续的分类器就不需要处理之前分类器的子窗口。
通过这样的一种机制能够有效地去掉较多的子窗口,因为较大部分的子窗口中都没有所要检测的物体。
如图3可以看出在训练过程当中需要确定究竟有多少个分离器级联才是最佳的,以及使用多少个特征,每个弱分类器的阈值如何确定,这些参数的确定基本不可能实现。
这里介绍一种比较简单粗暴的方法:
我们首先指定一个检出率和false positive rates。
每一个级联的分类器都是通过加入不同的特征,直到达到指定的检出率和false positive rates才停止加入,并且有多少阶段才结束是根据是否能够达到特定的检出率和false postive rate 来决定的。同样,阈值也是这么确定的。
假设扫描的时候的步长为 Δ ,尺度为 s
那么当前的步长= [ s Δ ]。一般 Δ=1.5 ,尺度需要根据图像大小以及窗口大小来确定。
检测到的子窗口的集合分成若干不相交的子集(每个子集中的子窗口都是相互重叠的),这些子集中的子窗口进行合并,集合中所有子窗口的左上角的坐标的平均即为该集合所确定的窗口的左上角的坐标。
图4中给出了四种分类分为将边缘特征、线特征、中心环绕特征以及对角线特征。
这些特征中的旋转的特征主要在《Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection》中得到了介绍。
特征个数的确定通过如下公式确定
至于怎么计算旋转45°的特征值,这里先挖个坑。过一段时间在补充上来。
《Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection》中介绍了三种变种分为Real Adaboost ,Discrete Adaboost以及Gentle Adaboost。差别不是很大。具体参考该论文。
[1] Viola P, Jones M J. Robust real-time face detection[J]. International journal of computer vision, 2004, 57(2): 137-154.
[2] Jones M. Rapid Object Detection using a Boosted Cascade of Simple[J].
[3] Lienhart R, Kuranov A, Pisarevsky V. Empirical analysis of detection cascades of boosted classifiers for rapid object detection[M]//Pattern Recognition. Springer Berlin Heidelberg, 2003: 297-304.
后期会分析一下Haar进行人脸检测的代码(matlab和OpenCV的实现),看时间允许不允许了。
http://www.mathworks.com/matlabcentral/fileexchange/29437-viola-jones-object-detection
其实想详细介绍Adaboost的证明的,考虑到是Haar是主角,这里没有详细介绍Adaboost。此外Haar 特征的变种也是个坑,还需要详细介绍。
基本就这么多,有讲的不明白的地方欢迎留言反馈。