IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 24, NO. 1, JANUARY 2002
Detecting Faces in Images: A Survey(中文翻译,其中的图片略)
译者 -----孟庆涛、煅新娥
摘要:脸的图像对基于视频的人机交互是必不可少的,基于人脸处理的研究方向包括人脸识别、人脸跟踪、姿势判断、表情识别。然而,很多方法都假设图像或图像序列中的人脸已经确认并定位。为了建立用来分析人脸图像所包含信息的全自动化的系统,我们需要鲁棒性好、高效的人脸检测算法。给定一张图像,人脸检测的目的是确定所有包含人脸的图像区域,而不管人脸的三维位置、方向和光照条件。这是一个比较有挑战性的问题,因为人脸是非刚性的,它在大小、形状、颜色和构造方面有高度的可变性。针对在单副图像中检测人脸,已经开发出很多技术,这篇文章的目的是对这些技术进行分类并评价这些算法。我们也讨论了一些相关问题,比如说数据收集、评价方法和标准。在分析这些算法并认清它们的局限性后,我们得出了几个很前景得研究方向。
关键词:人脸检测 人脸识别 主体识别 基于观察的识别 统计模式识别 机器学习
1 引言
随着新的信息技术和信息媒介的普及,在人机交互方面越来越多的高效友好的方法被开发出来,这些方法不依赖于传统的设备,比如说键盘、鼠标和显示器。而且,计算机性价比持续下降,近来视频设备成本下跌,预示着计算机视频系统能够在台式机和嵌入式系统中开发。(见于文献〔111〕、〔112〕、〔113〕)。人脸处理研究的快速发展是基于假设的,即关于用户身份、状态、意图的信息能够从图像中抽取出来,然后计算机做出相应响应,比方说观察一个人的面部表情。尽管心理学家、神经学学家和工程师们已经在人脸和人脸表情识别方面研究了20多年,但近五年中这方面已经吸引了很多人的注意。很多开发出来的科研原型系统和商业产品应用了这些方法。任何一个人脸处理系统的第一步是人脸在图像中的位置。然而,从单张图片中检测出人脸是一项具有挑战性的工作,因为人脸在大小、位置、方向、姿势方面是可变的。人脸表情、牙齿相接触的方式、光照也会改变人脸的整体外观。
现在,我们对人脸检测下一个定义:给定任意图像,人脸检测的目的是确定图像中是否有人脸,如果有人脸,则返回人脸在图像中的位置和范围。人脸检测面临的挑战可以归结为一下因素:
1).姿势。人脸图像会因摄像机-人脸的相对位置(正面,成45度角,侧面,上下颠倒)以及象独眼、鼻子部分或全部闭合等一些人脸特性而不同。
2)组成部件的有和无。象胡子、眼镜等面部特征,有些人有,有些人没有,而且它们在形状、颜色、和大小方面也有很大的差别。
3)面部表情。人的面貌直接受面部表情的影响。
4)遮挡。人脸可能别其他物体部分遮挡。在有一群人的图像里,有些人的脸会被其他人的脸部分遮挡。
5)图像的方位。人脸图像直接受视频光轴的不同旋转角度影响。
6)成像条件。当图像形成的时候,光照(光谱、光源分布、光密度)、摄像头特性(感应器,镜头)等因素会影响人脸的外观。
人脸检测方面有很多相关的问题。人脸定位的目标是确定单张人脸在图像中的位置;这是一个简单的检测问题,它假设输入的图像只包含一张人脸〔文献〔85〕、〔103〕〕。人脸特征检测的目的是检测人脸特征的有无和位置,比如说眼睛、鼻子、鼻孔、眉毛、嘴巴、嘴唇、耳朵等的有无和位置,,其前提同样是假设图像中只有一张人脸(文献〔28〕、〔54〕)。人脸识别是将输入图像与数据库中的人脸图像进行比较,如果有匹配的,则报告匹配情况。人脸验证的是在输入图像中验证单个人的身份,而人脸跟踪是在一组实时图像中持续估计人脸的位置,如果有可能的话也包括估计人脸的方位(文献〔30〕、〔39〕、〔33〕)。人脸表情识别涉及确认人的感情状态(包括高兴、悲伤、厌恶等)(文献〔40〕、〔35〕)。显然,在任何解决以上问题的自动化系统中人脸检测是第一步。值得指出的是,很多论文用到了人脸检测这个词,但用到的方法和实验结果只表明了在输入图像中找到了单张人脸的位置。在这篇论文中,我们将人脸检测与人脸定位区分开来,因为后者只是前者一个简单问题。同时,我们把注意力集中在人脸检测方法上,而不是跟踪方法上。
虽然已经提出了很多用来在单张黑白或彩色图像中检测人脸的方法,但是至今还没有针对这个特殊主题的调查报告。Samal和Iyengar写了一篇关于1991年前的早期人脸识别方法的调查报告,后来Chellapa et al写了一篇更晚一些关于人脸识别和一些检测方法的调查报告。
在这些人脸检测方法中,基于学习算法的方法吸引了很多人的注意,并得到了一些很好的结果。因为这些基于数据的方法很大程度上依赖于训练集,我们要讨论一下合适的数据库。一个重要的问题是怎么样来评价这些检测算法。最近很多论文是通过比较几个方法来评价,经常涉及检测率和错误率。值得注意的是,很多衡量标准已经被用来评价算法,比如说学习时间、执行时间、训练过程中需要的样本数、检测率和报错率的比例。加之研究学者们对检测率和报错率有不同的定义,这使得评价变的更加重要。在这篇论文中,检测率被定义为机器与人正确识别人脸数之比。当整张人脸的一定大小包含于一幅图像时,且分类器判定该图像区域是一张人脸,则认为是正确的检测(详情见3.3节)。总的来说,检测器会犯两类错误:消极错误和积极错误。消极错误是指存在的人脸没有被检测到而造成检测率的下降;积极错误是指不是人脸的图像区域被认为是人脸被检测出来。一个好的评价方法需要把这两方面因素全部考虑进去,因为当调整参数提高检测率的同时其误检率也可能会提高。这篇论文中,我们讨论一种好的评价方法中的标准数据集和一些相关的问题。
据报告可知,用于人脸检测方法的有150多种,人脸检测的研究对基于对象识别的机器视觉研究有更深层次的意义。在三维对象识别中,当强制性的在大范围镜头区域或光照条件下进行识别,几乎所有基于模型或外观的方法都受限于刚性对象。人脸识别可以被看成一个两类识别问题,即一个图像区域只能被判为人脸区域或非人脸区域。因此,人脸检测是从图像中识别出一类对象,而这类对象本身就有很多可变因素。这些可变因素可以通过大量训练样本集捕获,因此,人脸检测中的某些方法可以用于解决更广泛的类识别问题。
人脸识别也对模式分类和学习机技术提出了挑战。如果直接将一张原始或经过过滤的图像作为模式分类器的输入,其特征空间的维数会相当大。一张图像是人脸还是非人脸,其特征是由多峰分布函数决定的,并且在图像中其有效决策边界往往是非线性的。为了达到高效,要么分类器能够从适量的训练样本中外推出判断结果,要么分类器能够有效地处理大量高维训练样本。
为了对当前人脸检测方法作出全面而深刻地调查,本论文结构安排如下:在第二部分,我们对单张图像的人脸检测技术进行详细回顾;第三部分讨论基准数据库和评价标准;第四部分提出了人脸检测中有前途的几个研究方向。
虽然在可能的情况下我们都会报告每种方法的出错率,但由于这些测试往往是在独特的数据集上进行的,因此对这些方法的比较比较困难。我们只指出那些在公共数据集上进行测试的方法。如不作特别声明,都假设使用的同一数据集。
2 在单张图像中检测人脸
这部分,我们回顾一下在单张黑白或彩色图像中检测人脸的一些方法。我们把对单张图像的检测分为四类,有些方法明显同时属于多于一个类,这些方法将在本部分的最后讨论。
1)基于知识的方法。这些基于先验知识的方法对组成典型人脸的知识进行编码。通常,先验知识包含了这些人脸特征之间的相互关系。此类方法主要用于人脸定位。
2)特征不变方法。这些算法的目标是找出存在的一些结构特征,这些特征在姿势、观察点、光照条件改变的情况下保持不变。然后使用这些特性来定位人脸。这些方法主要用于人脸定位。
3)模版匹配法。这种方法首先是存储一张人脸的几个标准模版,用来描述整张人脸或人脸的部分特性。然后通过计算输入图像与已经存储模版之间的相关度来进行检测。这些方法既可用于人脸检测也可用于人脸定位。
4)基于外观的方法。与模版匹配不同的是,这里的模版是从一组训练图像经过学习而得来的,这些图像应该包括人脸外观的具有代表性的变化因素。这些方法主要用于人脸检测。
表格1 单张图像中的人脸检测方法分类
方法 代表性成果 |
基于知识 基于多准则的方法[170] |
特征不变量 -人脸特征 边缘组[87] [178] -纹理 人脸模式的空间灰度矩阵(SGLD)[32] -肤色 高斯混合法[172] [98] -多特征 肤色、大小和形状的综合[79] |
模版匹配 -预先定义人脸模版 形状模版[28] -可变形模版 活性形状模型(ASM)[86] |
基于外观的方法 -本征脸 本征向量分解和聚合[163] -基于分布 高斯分布和多层感知器[154] -神经网络 神经网络和仲裁模式的结合[128] -支持向量机(SVM) 多项式内核的支持向量机[107] -贝页斯分类 局部外观和位置的统计结合[140] -隐马尔可夫模型(HMM) 基于HMM的统计法[123] -信息理论法 kullback相对信息[89] [24] |
表格1总结了这四类方法中,用于人脸检测的算法和具有代表性的工作。下面,我们讨论每类方法研究的目标和大体的方法。然后回顾一下一些具体方法及其优缺点。在第四部分中我们对于进一步改进这些方法提出了建议。
2.1 基于知识法
这类方法中,人脸检测是基于研究者对人脸的先验知识。提出描述人脸特征及其相互关系的单个线索并非难事。例如,出现在图像中的人脸经常包括互相对称的两只眼睛、一个鼻子、一个嘴巴。特征之间的关系可以通过相对距离和位置来表示。次类方法的步骤是:首先从输入图像中抽取出人脸特征,然后通过与经编码的准则进行比较,识别候选人脸。确认过程经常被用来降低误检率。
这种方法的一个难点是怎样把人脸知识转化为定义良好的准则。如果准则过于详细,那么有些人脸将被漏检,因为其没有通过所有的准则。如果准则过于粗略,则将可能犯很多积极错误。此外,这种方法很难被扩充到检测不同姿势的人脸,因为要枚举出所有可能的情况比较困难。另一方面,这种启发式方法对于特定场景中的正面人脸检测具有很好的效果。
Yang 和Huang使用基于知识的分层方法进行人脸检测(文献〔170〕)。他们的系统包含三层准则。在最上层,用一个窗口对输入图像进行匹配扫描,在每个位置使用一组准则,寻找候选人脸。较高层的准则是对人脸的大体描述,而较低层的准则是对人脸细节特征的描述。对图像的分层解决方案是通过平均和二次抽样实现的,Fig1就显示了这样一个例子。在最低层,用来定位人脸的编码准则包括:人脸中心有四个亮度分布基本一致的单元(即两只眼睛、一个鼻子、一张嘴巴);眼睛以上附近的区域有基本一致的亮度;中心区域与眼睛以上区域的平均灰度值有明显差别。寻找候选人脸是使用的最底层(第一层)的解决方案,这些候选人脸需要用更好的算法进行处理。在第二层,对边缘检测之后的候选人脸进行直方图均值化。在第三层,使用另外一组准则,这些准则对应于人脸的具体特征比方说眼睛和嘴巴,对剩下来的候选区域进行检测。用60幅图像对这个系统进行测试,系统测试出50张图像中有人脸,而28幅图像有错误报告。这种方法吸引人的方面是它使用简化或者说抓主要点的策略来减少运算量。虽然这种方法的检测率不高,但它搜寻目标时用到的分层多解决方案和准则已经被后来的检测工作所利用。(文献〔80〕)
图1 (a)n=1,原始图像。(b)n=4。(c)n=8。(d)n=16。原始图像和相应的低分辨率图像。每个方形单元包含n*n个像素,每个像素的亮度由该单元中像素的平均亮度代替。
图2 一张基于知识的严密方法:利用基于人脸区域特征的知识编码出准则。(文献[170])
Kotropoulos和Pitas(文献〔81〕)提出了一种基于准则(先验知识)的定位方法,该方法类似于文献〔71〕和〔170〕中的方法。首先,使用一种映射方法定位人脸特征(比如说眼睛、嘴巴等), Kotropoulos曾用这种方法成功地定位了人脸边界。假如有一张m*n的图像,令I(x,y)为坐标点(x,y)的亮度,图像的水平和垂直映射被定义为 和 。最先获取的是输入图像的垂直侧面,然后是两个局部极小值,这是由检测垂直亮度的突变决定的,也被认为是对应于头部的左右两侧。与此类似,获取水平侧面和局部极小值,这两个局部极小值是由嘴唇、鼻尖和眼睛决定的。这些检测到的特征构成了候选人脸。图3(a)显示了一个例子,其中人脸边界对应于局部极小值,即亮度发生突变的地方。随后,使用眉毛(眼睛)、鼻孔(鼻子)、嘴巴等检测准则来验证候选人脸。以上提出来的方法已经被测试过,使用的是从欧洲ACIS M2VTS()数据库检索出来的正面人脸,包括37个不同人的视频序列。每个图像序列包含相同背景下同一个人的脸。在所有的测试中,他们的方法都给出了正确的候选人脸。如果正确检测被定义为正确识别所有的人脸特征,那么他们的方法的检测率达到了86.5%。图3(b)显示了在复杂背景下用垂直和水平侧面很难定位出人脸的一个例子。此外,这种方法也不能轻易地检测出多张人脸,如图3(c)所示。本质上来说,如果窗口覆盖地区域合适(以便避免干涉),这种映射方法是有效的。
图3 (a)和(b)n=8,(c)n=4。水平和垂直侧面。通过在水平和垂直侧面图中搜寻峰值检测人脸是可行的。然而,这种方法在检测复杂背景中的人脸或一幅图像中的多张人脸时存在问题(如图(b)和(c)所示)。
2.2 自下而上特征法
与基于知识的方法相对,研究者们一直在试图找到人脸的不变量,用来检测人脸。这是基于潜在前提的,即人类能够轻而易举地在多姿态、不同光照情况下检测出人脸,因此,撇开这些变化的因素应该存在一些不变的因素。到目前为止,已经提出了很多方法来检测人类特征并推断出人脸的存在。象眉毛、眼睛、鼻子、嘴巴、头发边缘这些人脸特征通常是通过边缘检测器抽取出来的。基于这些抽取出来的特征,建立统计模型,描述特征之间的关系,验证人脸的存在。这些基于特征的算法都存在的一个问题是,图像特征会受光照、噪声等因素的严重破坏。例如,阴影能够带来很多明显的边界,这些边界一起就会致使人脸边界淡化,算法群失效。
2.2.1 人脸特征
Sirohey提出了一种定位方法,把人脸从复杂背景中提取出来进行人脸验证。它使用边界图(canny检测器)和启发器对边界进行移除和分类,因此,只有人脸的轮廓被保存了下来。头部区域与背景的分界线就形成了一个椭圆。在不同背景下的48幅图像的数据库里,这个算法的精确率达到了80%。除了使用边缘之外,Chetverikov和Lerch提出了一种使用条纹(即相似方向的边缘)的简单人脸检测算法。他们的人脸模型包括两条黑斑和三条亮斑来分别代表眼睛、颧骨、鼻子。这个模型使用斑纹来表示人脸、眉毛、嘴唇的轮廓,两个三角形来示意条纹间的空间关系。在进行条纹检测之前先用低通拉普拉斯算子对图像进行处理。然后扫描图像,找到特定的三角形区域,作为候选。最后通过验证候选周围的条纹来检测人脸的存在。
Graf et al提出了一种在灰度图像中定位人脸特征及人脸的方法(文献〔54〕)。图像首先经过滤波,然后用形态学方法增强图像的有形高亮度区域(例如说眼睛)。经过处理后图像的直方图有明显的峰值。基于峰值和它的宽度,选择合适的阈值,就能够将原图转化为二值图像。二值图像中互相关联的成分被认为是人脸特征的候选。将那些候选合并起来用分类器进行评价,以确定哪些是人脸以及人脸在哪个地方。他们的这种方法已经经过测试,使用的是40个人的头部图像和5个视频序列,每个序列包含100到200个侦。然而,该方法没有讲清楚怎样用形态学进行操作以及怎样将候选人脸特征联系起来定位人脸。
Leung et al提出了一种基于局部特征探测器和随机曲线图匹配的概率方法来定位复杂背景中的人脸(文献〔87〕)。他们的出发点是把人脸定位问题作为一个搜索问题来阐明,其搜索的目标是找到某种最象人脸的人脸特征布局。其中用到了五个特征(即两只眼睛、两个鼻孔、鼻子和嘴唇的交接处)来描述一张典型的人脸。对于任意一对相同种类的人脸特征(比如说左右眼睛对),计算出它们的相对距离,然后用高斯分布模拟出所有图像的同种类特征的距离。人脸模版被定义为用一组多方位、多路高斯派生滤波器作用于一个数据库里的一组人脸,其输出结果的平均值。给定一张测试图像,用滤波器对每个点进行匹配,将其与模版向量中的相应点进行比较。然后选择可靠率排在一二位的候选特征,将其用来搜寻其他的人脸特征。因为人脸特征的的位置不是随意排列的,其他特征的期望位置可以通过使用相对距离的统计模型进行估算。此外,估算值的协方差能够被计算出来。因此,人脸特征的期望位置能够被高效的估算出来。只有合适位置的候选特征组成特征群,至此我们可以确定出最象人脸的特征群。寻找最好特征群的问题就被认为是一个曲线匹配问题,曲线上的点代表人脸特征,弧代表特征间的距离。特征群的排队是基于一个概率密度函数,一个特征群是否是人脸取决于其是否是人脸的概率。他们使用150幅图像进行实验,对于任意一个特征群,如果它定位到三个或三个以上人脸特征,则认为正确检测到人脸。这个系统的正确定位率达到86%。
除了使用特征群中特征的相对距离描述人脸特征间的关系外,Leung et al还提出了另外一种模拟人脸的方法(文献〔13〕、〔88〕)。该方法中,特征群的表示和排列是通过使用形状统计理论(由Kendall(文献〔75〕、 Mardia 和Dryden(文献〔95〕提出)完成的。形状统计表是由N个特征点上的概率密度函数值构成的,每个特征点表示为 ,对于第i个特征点,假设其原始特征点符合二维高斯分布。他们使用极大可能法确定人脸位置。这些方法的一个优点是它们能够定位出部分被遮挡的人脸。然而,我们不确定这些方法能否有效检测出同一场景中的多张人脸。
文献〔177〕、〔178〕中,Yow 和Cipolla提出一种基于特征的方法,该方法使用了大量从视觉图像获得的证据以其它们的上下文证据。第一阶段用一个伸缩长宽比为3:1的派生高斯滤波器,作用于原始图像。我们感兴趣的是滤波器检测到的局部最大值点,它们表示了人脸特征的可能位置。第二阶段审查兴趣点周围的边缘并把它们划到不同的区域。对边缘的分组是基于它们的方向和粗细的接近度和相似度。然后,计算出区域特征的测量值,比如说边缘长度、边缘粗细、强度大小,并把结果存在特征向量中。利用人脸特征的训练数据把人脸特征向量的平均矩阵和协方差矩阵计算出来。当相应特征向量之间的Mahalanobis 距离小于一定的阈值,则其所在的图像区域就成为有效的人脸特征候选。按照模型知识,即特征之间的相对位置,对标记特征进一步分组。然后,使用贝页斯网络来评价每个人脸特征及其分组。这种方法的有吸引力在于它能够检测不同方向和多姿态的人脸。以110幅不同大小、方位、观察点的人脸图像作为测试数据,这种方法的检测率达到了85%(文献〔179〕)。然而,该方法的误检率达到28%,并且它只对像素大于60×60的人脸有效。后来,有人用活性等高模型对该方法进行了改进(文献〔22〕、〔179〕)。图4对基于特征的人脸检测方法进行了总结。
图4 (a) Yow和Cipolla将人脸视为一个含六个定向人脸特征(眉毛、眼睛、鼻子、嘴巴)的平面模型(文献[179]) (b)为每个人脸特征建立由一对有向边界组成的模型。(c)从感兴趣点开始进行特征选择,随后进行边缘检测和连接,并用统计模型进行测试。
Takacs 和Wechsler提出了一种有生物根据的人脸定位方法,该方法基于一个视网膜特征提取和眼睛细微运动的模型(文献〔157〕)。他们的算法当中,用一个模拟人类视觉系统中的神经节细胞的视网膜格子作用于感兴趣区域或突出区域。第一阶段通过对图像进行粗糙的扫描过滤,估计人脸的位置。每个区域包含一定数量的神经元,这些神经元都已经受高斯滤波器的作用,调整到特定方位。第二阶段通过使用更好的策略扫描图像,提炼出突出区域,将人脸局部化。用426幅图像(其中200幅取自FERET数据库)进行测试,该方法的错误率为4.96%。
Han 等开发了一种基于形态学的技术来提取眼睛模式段(eye-analogue segments),检测人脸(文献〔58〕)。他们认为眼睛和眉毛是最明显和最稳定的人脸特征,因此,它们对检测非常有用。他们将眼睛模式段定义为眼睛轮廓的边缘。首先,对图像进行形态学操作,如闭运算,去掉低谷,用阈值提取出亮度发生明显变化的点,这些点成为眼睛模式点。然后,对眼睛模式点执行标记处理,形成眼睛模式段。使用这些段来引导搜寻潜在人脸区域,这些区域是由眼睛、鼻子、眉毛和嘴巴按一定几何关系组合起来的。最后,用类似阈文献〔127〕的神经元网络法对候选人脸区域进行进一步验证。他们的方法在包含130张人脸的122幅图像的测试数据上的测试精确率为94%。
最近,Amit等提出了一种用来检测形状的方法,并且将它用来检测静态强度图像中的正面人脸(文献〔3〕)。检测分为两个阶段完成:即聚焦和密集分类。聚焦是根据边缘段的空间排列进行的,这些边缘段是从基于亮度差别的简单边缘检测器中提取出来的。定义出类似空间排列的Arich族、一定光度范围的不变量和几何变换。利用一套300幅人脸图像的训练集,采用文献〔4〕中的方法选出象人脸的特定空间安排。同时,使用CART算法(文献〔11〕)以训练图像为依据构造一棵分类树,并且构造从普通背景图像中识别的错误人脸(false positives)集合。给定一幅测试图像,从边缘段的空间排列中识别出感兴趣的区域。利用CART树把每个感兴趣区域划分为人脸或背景。他们的实验是在从Olivetti(nowAT&T)获得的100幅图像上做的,每1000个像素点中,其积极错误率为0.2%,消极错误率为10%。
2.2.2 纹理
人脸有固有的纹理,可以用来区分于不同对象。Augusteijn和Skufca开发了一种方法,通过鉴别类似于人脸的纹理推断人脸的存在(文献〔6〕)。通过使用从16×16子图像得到的二次统计特征(SGLD,见文献〔59〕)计算出纹理。考虑三种纹理:皮肤、头发、其他。他们使用一种层叠交互神经网络(文献〔41〕)管理纹理分类,并使用一种Kohonen自组织特征图(文献〔80〕)形成不同的纹理类群。为了从纹理标签推断出人脸的存在,他们建议使用头发和皮肤纹理。然而,文中只告知了纹理分类的结果,而没有讲述人脸的定位或检测。
Dai 和 Nakano也使用了SGLD模型进行人脸检测(文献〔32〕)。颜色信息被并入人脸特征模型。他们使用人脸特征模型为彩色背景中的人脸检测设计了一个扫描计划,背景中包含人脸的橘黄色部分被增强。这种方法的优点是它能够检测非垂直人脸或包含象胡子、眼镜之类特征的人脸。该方法在包含60张人脸的30幅图像检测集上的检测率很高。
2.2.3 肤色
人类的肤色特征已经被使用,并在从人类检测到跟踪的很多应用中被证明是有效的特征。虽然不同的人有不同的肤色,有几个研究已经表明肤色的主要差别不是在于它们的色度而主要在于其亮度(文献〔54〕、〔55〕、〔172〕)。已经有几个颜色空间被用来标记作为人类的像素,包括RGB(文献〔66〕、〔67〕、〔137〕),标准化RGB(文献〔102〕、〔29〕、〔149〕、〔172〕、〔30〕、〔105〕、〔171〕、〔77〕、〔151〕、〔120〕),HSV(或HIS)(文献〔138〕、〔79〕、〔147〕、〔146〕),YCrCb(文献〔167〕、〔17〕),YIQ(文献〔31〕、〔32〕),YES(文献〔131〕),CIEXYZ(文献〔19〕),和CIE LUV(文献〔173〕)。
至今,人们已经提出了很多方法来建立肤色模型。最简单的模型是使用Cr、Cb值(文献〔17〕),例如从肤色像素样本得到Cr、Cb值R(Cr,Cb),来定义皮肤色调像素区域。选择合适的阈值〔Cr1,Cr2〕和〔Cb1,Cb2〕,如果一个像素的颜色值(Cr,Cb)落入该区域,即Cr1<= Cr <=Cr2及Cb1 <=Cb <=Cb2,则认为该像素点有皮肤色调。在假定皮肤是由像素组成的前提下,Crowley 和Coutaz使用一个直方图h(r,g)获取得到精确RGB向量的可能性(文献〔29〕、〔30〕),其中h(r,g)是在标准RGB颜色空间中的(r,g)值。换句话说,对于一个像素,如果h(r,g)>=n,其中n是根据经验从直方图样本选择的阈值,则该像素被认为是皮肤。Saxe 和Foulds提出了一种迭代的皮肤验证方法(文献〔138〕),使用了HSV颜色空间中的直方图交集。用户选择一组初始肤色像素,也称为控制种子,来初始化迭代算法。为了检测肤色区域,他们每次用一组像素在图像中移动,并将控制直方图与从图像中获得的当前直方图进行比较,比较时使用的是直方图交集(文献〔155〕)。如果匹配程度或相似点个数(例如交集)大于某一阈值,则当前的那组像素被认为是肤色。Kjeldsen和 Kender定义了一个HSV空间中的颜色断言来将肤色区域和背景区分开来(文献〔79〕)。不同于以上提到的无参数方法,高斯密度函数(文献〔14〕、〔77〕、〔173〕)和混合高斯函数(文献〔66〕、〔67〕、〔174〕)经常被用来建立肤色模型。单峰高斯分布中的参数往往是通过极大似然法进行估计的(文献〔14〕、〔77〕、〔173〕)。使用混合高斯法的原因是,我们观察到来自不同种族背景的人的皮肤的颜色直方图不符合单峰分布,而是一个多峰分布。混合高斯函数中的参数通常是使用EM算法估计出来的。(文献〔66〕、〔174〕)。最近,Jones 和 Rehg进行了一个大规模实验,在标准RGB颜色空间中,收集了将近十亿标志肤色的像素点(文献〔69〕)。将检测肤色的直方图模型与混合模型进行比较,他们发现直方图模型在精度和计算耗费方面更优一些。
如果肤色模型能够完全应用于不同光照环境,那么肤色信息对于鉴定人脸区域和特定的人类特征是一个有效的工具。然而,当光源光谱有很大差别的时候,那种肤色模型久不再有效。换句话说,由于背景和前景光照的改变,颜色的外观是不稳定的。虽然,颜色的色感一致性问题已经通过基于物理的模型进行详细阐述(文献〔45〕),但是还是有人提出了几种在不同光照条件下使用皮肤颜色的方法。McKenna等提出了一种在不同光照条件下使用适应性颜色混合模型追踪人脸(文献〔99〕)。撇开基于颜色色感一致性的肤色模型不用,他们使用一种随机模型来联机估计对象的颜色分布,该方法能够容忍观察和光照条件的改变。初步结果表明他们的系统能够在一定范围的光照条件下追踪人脸。然而,这种方法不能用于在单张图像中检测多张人脸。
在检测或追踪人脸的过程中,单独使用肤色往往是不够的。最近,开发了几种联合使用形状分析、颜色分割及运动信息的标准系统,用来在一个图像序列中定位或追踪人头和人脸(文献〔55〕、〔173〕、〔172〕、〔99〕、〔147〕)。我们将在下一部分回顾这些方法。
2.2.4 多特征
最近,提出了很多联合几个人脸特征来进行人脸定位或检测的方法。其中的大部分方法是利用象皮肤颜色、大小、形状等全局特征来找出候选人脸,然后用局部特征验证这些候选人脸,例如眉毛、鼻子和头发。一个典型的方法是,开始的时候检测出像皮肤的区域(如 2.2.3 所描述),然后利用组合分析或集群算法将似人脸像素分组并联系起来。如果被联系起来的区域有椭圆形或卵形,那么该区域就成为候选人脸。最后,利用局部特征进行验证。然而,在其他论文(文献〔17〕、〔63〕)中使 用了不同的局部特征集。
Yachida等提出了一个使用模糊理论检测彩色图像中人脸的方法(文献〔19〕、〔169〕、〔168〕)。他们使用两个模糊模型描述CIE XYZ颜色空间中的皮肤和头发颜色分布,五个脑部形状模型(一个正面四个侧面)抽象出图像中人脸的外观。每个形状模型是包含m*n个正方形单元的二维模式,每个正方形单元可能包含几个像素。给每个单元分配两个属性:皮肤比例和头发比例,它们表明了一个单元中皮肤区域或头发区域占的比例。在一个测试图像中,根据分布模型,每个像素被归类为头发、人脸、头发和人脸的边界、头发和背景的边界,因此产生了似皮肤区域和似头发区域。然后将抽取出来的似皮肤区域和似头发区域与脑部形状模型进行比较,如果相似,则检测区域就成为候选人脸。为了验证候选人脸究竟是否是人脸,使用水平边缘提取出候选人脸的眼镜、眉毛、鼻子、嘴巴等特征。
Sobottka和Pitas提出了一种使用形状和颜色进行人脸定位和人脸特征提取的方法(文献〔147〕)。首先,使用HSV空间中的颜色片断定位似人脸区域。然后通过使用粗糙的方法进行区域增长确定连续区域。对于每个连续区域使用几何矩计算出最合适的椭圆。选择最接近椭圆的连续区域作为候选人脸。接着,在作为候选的连续区域中搜寻人脸特征,验证候选是否是人脸。像眼睛、嘴巴这样的特征,通过观察,它们比人脸的其他区域黑,由此将它们抽取出来。在文献〔159〕、〔160〕中,使用高斯肤色模型对肤色像素进行分类。为了表示二值图像中像素族的特征,他们使用傅立叶变换和辐形Mellin 变换计算出11个低序几何矩。利用抽取出来的几何矩训练一个神经网络,用于检测。他们的实验在100幅图像的测试集上检测率为85%。
人脸模型的对称性也被用来定位人脸(文献〔131〕)。在YES颜色空间中,使用有条件类密度函数进行皮肤或非皮肤分类,然后进行平滑操作便于产生连接区域。接下来,使用一个椭圆人脸模版,基于Hausdorff距离,确定肤色区域与模版的相似度(文献〔65〕)。最后,利用人脸中眼睛位置固有的对称性,使用几个价值函数,定位出眼睛中心。鼻尖和嘴巴中心的位置则通过它们与眼睛中心的距离来确定。这个方法的缺点是它只对单张正面人脸或两只眼睛都可见的情况有效。文献〔151〕提出了一个使用颜色和局部对称性的简单方法。
对比于基于像素的方法,文献〔173〕提出了一种基于结构、颜色、几何形状的方法。首先,执行多路分割(文献〔2〕)抽取出一幅图像中的相似区域。使用高斯肤色模型,抽取肤色区域,归如椭圆组。如果在这些椭圆区域中存在像眼睛和嘴巴之类的人脸特征则人脸被检测出来。实验结果表明这种方法能够检测出包含人脸特征(如胡子、眼镜)的不同方位的人脸。
Kauth等提出了一种块表示法,对多谱卫星图像进行周密、结果化的描述(文献〔74〕)。通过将像素坐标与像素的光谱(纹理)元素串联起来,形成每个像素的特征向量,然后使用这些特征向量将像素进行聚类形成固有的连接区域,或称之为“块”。为了检测人脸,每个特征向量都包含图像坐标和标准色度,如 (文献〔149〕、〔105〕)。然后,使用一种连通性算法来增大“块”,结果得到的与规范人脸大小、形状相似的皮肤块即被认为是人脸。
Kim等使用范围和颜色进行人脸检测(文献〔77〕)。假设背景像素有相同的颜色深度,并且背景中的像素数多于前景对象中的像素数,使用差分直方图计算出差分图表,把对象从背景中分割出来。在标准RGB颜色空间中使用高斯分布,具有类肤色的区域则被认为是人脸。文献〔33〕中Darrell等提出了一种类似的方法用于人脸检测和跟踪。
2.3 模版匹配
在模版匹配中,通过人工事先定义或用函数参数化一个标准人脸模式(通常是正面的)。给定一张输入图像,分别计算出人脸轮廓、眼睛、鼻子、嘴巴标准模式的相关值。人脸的存在就是由这些相关值决定的。这种方法的优点是执行起来比较简单。然而,实验证明它不足以检测出人脸,因为它不能有效地处理大小、姿势、形状改变的人脸。此后,为了达到大小、形状不变的目的,提出了多方案、多路、子模版和可变形模版等概念。
2.3.1 预先定义的模版
据记载,早期的时候Sakai等就试图检测出照片中的正面人脸(文献〔132〕。他们使用眼睛、鼻子、嘴巴和人脸轮廓的子模版建立人脸模型。每个子模版是根据线段来定义的。输入图像中的线是基于梯度的最大改变值提取出来的,然后将它们与子模版中的线进行比较。首先计算出子图像和轮廓模版间的相似度,检测出候选人脸位置。然后,在候选位置进行与其他子模版的比较。换句话说,第一步是确定关注区域或感兴趣区域,第二步是探测细节确定人脸的存在。在后来的人脸检测工作中使用到了关注区域和子模版的思想。
Craw等提出了一种基于正面人脸形状模版的定位方法(文献〔27〕)。首先使用Sobel滤波器提取出边缘。基于几个限制条件将提取出的边缘组合起来,寻找人脸模版。在定位到头部轮廓后,在不同刻度反复使用此相同出来过程定位出眼睛、眉毛、嘴唇之类的特征。随后,Craw等描述了一个定位方法,使用40个模版寻找人脸特征,并用一个控制策略来引导,最后从基于模版的特征检测器中获得检测结果(文献〔28〕)。
Govindaraju等提出了一个两步人脸检测法,产生人脸假定并进行正面(文献〔52〕、〔53〕、〔51〕)。以边缘定义的特征为依据建立人脸模型。这些特征描述了正面人脸的左右边界和头发边缘线。使用Marr-Hildreth边缘检测器获取输入图像的边缘图。然后用滤波器除去不可能是人脸组成部分的对象。接下来,基于它们的相邻性和相对方位将小的轮廓对联系起来。找出拐点,将轮廓分割成特征曲线。核对特征曲线的几何特性和相对位置,对其进行标记。如果特征曲线的属性兼容则用边缘线将其连接起来。将形成边界的特征对之间的比例与黄金比例进行比较,并给边缘赋予一个代价值。如果一组中的三条具有不同标记的特征曲线的代价很低,则这一组特征曲线就成为假设。当检测报纸文章中人脸时,为了选择出最好的假设,从输入图像的标题中获取间接信息,了解图像中所包含的人数(文献〔52〕)。对50幅照片的测试集进行测试,他们的系统的检测率大概为70%。然而,检测的人脸必须时直立的、未重叠的并且是正面的。Venkatraman 和Govindaraju使用小波方法延伸出相同的方法用于提取边缘(文献〔165〕)。
Tsukamoto等提出可一个人脸模式的定性模型(QMF)(文献〔161〕、〔162〕)。在QMF方法中,每个样本图像被分成一些块,对每个块估算出其定性特征。在这个模型中,为了参数化一个人脸模式,“光照”和“边界”被定义为特征。从而,使用该块模版计算输入图像中每个位置的人脸可能性。如果人脸可能性大于某一预先定义的阈值,则一张人脸就被检测到。
侧面影像也被用来作为人脸定位的模版(文献〔134〕)。对人脸样本进行主成分分析,获取一组基本的人脸侧面影像,这些侧面影像是由一些位组成的,它们和普通的Hough变换一起被用来定位。文献〔150〕中提出了一种基于人脸结构的多模版定位方法。他们的方法当中为可能的人脸特征定义了大量假设。人脸存在的一组假设被定义为使用Dempster-Shafer理论(文献〔34〕)得到的人脸结构假设。给定一幅图像,特征检测器计算出人脸特征存在的信心因素。这些因素合起来就能决定相信或不相信人脸的存在。他们的系统能在94幅图像中定位出88幅图像中的人脸。
图5 基于Sinha方法的人脸定位14×16比例模版。该模版由16个区域(灰色格子)23个关系(箭头所示)组成(文献[139])
Sinha使用一组空间图像不变量描述人脸模式的空间特性(文献〔143〕、〔144〕)。他设计这些不变量的原因在于,当变量随着光照的改变而改变人脸不同部分(如眼睛、面颊、额头等)的亮度时,这些部分的相对亮度基本保持不变。确定一些类似区域的成对亮度比,保留这些比例的大致趋势,比如一个区域比另一个区域亮更或更暗,这些比例就给我们提高供了一个很好的不变量。因此,观察到的亮度规律被编码成一个粗糙的人脸空间比例模版,这个模版中包含适当选择的对应于主要人脸特征的子区域,如眼睛、脸颊和额头。通过子区域间的一组适当的明-暗关系对获取人脸特征间的亮度限制。如果一幅图像符合所有的明-暗限制,那么一张人脸就被定位到。这种使用局部邻接区域的亮度差别的思想后来被延伸到基于小波的行人、车辆和人脸的检测(文献〔109〕)。Sinha的方法已经被延伸,并在一个机器人视觉系统中被用于人脸定位(文献〔139〕、〔10〕)。图5显示了定义了23个关系的增强模版。这23个关系被进一步分为11个基本关系和12个有效关系(箭头线)。图像中的每条箭头线表明一个关系,箭头线的头部指示第二个区域(也就是分数的分母)。如果两个区域间的比例超过了某个阈值则其对应的关系就满足人脸模版,并且当基本关系和有效关系的个数超过某一阈值时,人脸就被定位到。
Miao等提出用一种分层模版匹配法进行人脸检测(文献〔100〕。第一步,为了便于处理旋转图像,将输入图像按5度的步长从-20度转到20度。形成图像分层(间图1),用拉普拉斯变换提取边缘。人脸模版包含六个人脸结构元的边缘:两个眉毛、两只眼睛、一个鼻子、一张嘴巴。最后使用启发式方法决定人脸的存在与否。他们的实验结果在含单张人脸的图像(正面或经过旋转)中优于含多张人脸的图像。
2.3.2 可变形模版
Yuille等使用可变形模版建立人脸特征模型,该模型将优先弹性模型用于人脸特征(文献〔180〕)。这个方法中用参数化模版描述人脸特征。定义了一个能量函数将输入图像中的边缘、尖峰、低谷与模版中的相应参数联系起来。通过最小化这些参数的能量函数,找到最合适的弹性模型。虽然他们的实验在跟踪非刚性特征中得到了很好的结果,但这种方法的一个缺点是可变形模版必须在感兴趣对象的附近进行初始化。
文献〔84〕中,开发了一种基于蛇爬模版的检测法(文献〔73〕、〔90〕)。首先,使用模糊滤波器将图像缠绕起来,然后用形态学方法增强边缘。使用经过修正的n个像素组成的蛇形寻找并除去小的曲线段。对保留下来的小蛇使Hough变换来寻找一个主导椭圆,每张人脸最终被近似化为一个椭圆。因此,获取描述椭圆的四个参数集,并将其用来作为人脸定位的候选。对于每个候选,使用一种类似于可变形模版法(文献〔180〕)的方法寻找细节特征。如果人脸特征数目的真实值被找到了,并且他们的比例满足基于人脸模版的比例测试,那么就认为一张人脸被检测到。Lam和Yan也使用蛇形来定位脑部边界,在最小化能量函数时使用了贪婪算法(文献〔85〕)。
Lanitis等描述了一种基于形状和亮度信息的人脸表示法(文献〔86〕)。他们首先获取一组训练图像,对图像中的样本轮廓,如眼睛边界、鼻子、下巴和面颊,进行手工标记,用样本点的向量来表示形状。他们使用点分布模型(PDM)来刻画所有人的形状向量,用类似于Kirby和Sirovich(文献〔78〕)的方法表示标准形状亮度。在新图像中,使用积极形状模型(ASM)搜索,估计出人脸位置和形状参数,利用人脸形状的点分布模型定位人脸。然后将人脸块变为平均形状,提取出亮度参数。为了进行分类,形状信息和亮度信息可以一起使用。Cootes 和Taylor使用了类似的方法定位图像中的人脸(文献〔25〕)。首先,他们在包含重要特征例子的图像中定义矩形区域。然后,对这些训练特征进行因素分析(文献〔5〕),获得函数分布。如果可能性大于某一阈值则可以决定候选特征,验证的时候使用的是ASM法。通过对40幅图像进行训练,该方法能够在40幅图像中定位出35张人脸。也有人使用Kalman 滤波器对ASM方法进行了扩展,估算与形状无关的亮度参数,并跟踪图像序列中的人脸(文献〔39〕)。
2.4 基于外观的方法
模版匹配法中模版是由专家事先预定,与模版匹配法不同的是,在基于外观的方法中模版是通过对图像中的样例进行学习而得来的。总的说来,基于外观的方法主要依靠统计分析和机器学习技术来寻找人脸和非人脸的相应特征。用分布模型或判别函数表达学习到的特征,用于后面的人脸检测。同时,此类方法中,通常使用降维处理来提高计算和检测效率。
很大基于外观的方法可以通过使用概率框架来理解。令从一幅图像中获取的图像向量或特征向量为一个随机变量x,通过条件密度函数 和 决定x的值。然后可以使用贝页斯分类法和最大似然法决定候选图像位置是人脸或不是人脸。不幸的事,直接使用贝页斯分类法是不可行的,因为x的维数太高, 和 是多峰的,并且如果受先天性因素影响, 和 就不好理解。因此,在基于外观方法上的大部分研究工作涉及使用实际有效的参数化或非参数化近似法计算 和 。
基于外观方法的另一个实现途径是在人脸和非人脸之间找出一个判别函数(也就是判决面,分离超平面,阈值函数)。按照惯例,将图像模式映射到低维空间,然后形成判别函数(通常基于距离)用于分类(文献〔163〕),或者用多层神经网络形成一个非线性判决面(文献〔128〕)。最近,提出了支持向量机和其他内核方法。这些方法将模式映射到高维空间,然后在映射人脸和非人脸模式间构造决策面(文献〔107〕)。
2.4.1 本征脸法
在人脸识别中使用本征向量的一个早期人物是Kohonen,在他的方法中,示范了用一个简单的神经网络识别排列好的标准人脸图像。通过近似化计算图像自动关联矩阵的本征向量,神经网络得到关于人脸的描述。这些本征向量就是后来我们知道的本征脸。
Kirby 和Sirovich证明,通过使用适量的基本人脸能够对人脸图像进行线性编码(文献〔78〕)。其证明是基于Karhunen-Loe`ve变换(文献[72]、[93]、[48])和Hotlling变换,其中Karhunen-Loe`ve变换也有其他的名字,比如主要组件分析[68]。Perason在1901年的时候首先提出了这个想法(文献[110]),随后是Hotelling在1933年提出(文献[62])。给定一个n×m训练图片的集合,表示成一个大小为m×n的矢量,确定最优子空间中的基本向量,因此可以最小化将训练图像映射到子空间和原图像过程中的平均错误。他们称该最优向量集为本征图,因为这些向量仅是训练集向量化人脸图像的协方差矩阵的本征向量。用100幅图像对该方法进行实验,结果表明只要使用50幅本征图就能够对91×50的人脸图像进行有效编码,而实验过程中只使用了95%的变量。
Turk和Pertland把主要组件分析技术应用于人脸识别与检测中(文献[163])。与[78]类似,关于人脸图像训练集合的主要组件分析技术用于生成本征图片(这里称为本征人脸图片),它扩展了图片子空间(这里称为人脸空间)。把人脸图像映射于那些子空间,并进行归类。类似的,把非人脸训练图片映射到相同的子空间并归类。因为人脸图片在投影时并没有本质改变,因此非人脸图片看起来就大相径庭了。为了检测到一个场景中的人脸,在此图片中的所有位置,图片区域和人脸空间的距离一定要被算出来。此距离是faceness的一个度量指标,上面的计算结果就是一张“人脸图”。然后,可以利用人脸图的局部极小值检测到人脸。很多关于人脸检测、人脸识别和特征提取的文章都采用了本征向量分解和聚集的思想。
2.4.2 基于分布的方法(Distribution-Based Methods)
Sung和Poggio开发了一个以分类为基础的人脸检测系统[152][154],这个系统演示了一种物体类的图像模式分类能从正反两方面的事例(也就是图像)中得到。他们的系统由两部分组成:区分人脸/非人脸模式的分类模型和多层感知机分类器。每张人脸和非人脸样本首先被规范处理成19*19像素的图像,作为一个361维的向量。接着,这些样本用如图6所示的改进的K-means算法分成6个人脸和6个非人脸一组的群组。每一组由高斯函数和协方差矩阵表示。
图7展示了在他们的方法中的距离测量。两个距离量由输入图像模式和原型组群计算得出,第一个距离是测试样本和组的质心之间的规范的Mahalanobis距离,由组的75个最大的特征向量组成的低维子空间里计算得出。第二个距离是待测样本和它自己在75维子空间上的投影之间的欧式距离。用于记录样本区别的距离并不是由第一个距离单元测量。最后一步是多层感知机网络(MLP)用12对人脸和非人脸组间的距离来区分人脸样本和非人脸样本。分类器用47316个样本采用标准的反向传播算法进行训练,其中有4150个人脸样本,其余的是非人脸样本。需要说明的诗,收集有代表性的人脸样本是容易的,但是要得到有代表的非人脸样本却是非常困难得。这一问题可以通过bootstrap算法得以缓解,即在训练过程中,有选择的增加图像进行训练。开始时,先用少数的非人脸样本作为训练样本集,多层感知机用此样本进行训练。接着,运行人脸检测系统来检测一系列的随机图片并且收所有的错误判断为人脸的非人脸样本,并把这些样本作为新的非人脸样本加入到非人脸样本的训练集中来。 Bootstrap方法避免的准确收集有代表性的非人脸样本所带来的困难,并且这种方法在后来的工作中被用到[107][128]。
一个可能的基于在高维空间密度估计的视觉学习方法是由Moghaddam 和Pentland[103]开发的。主成分分析(PCA)是用来定义子空间最好的表现人脸样本集。主成分分析保护了数据的主要线性相关性和丢弃次要的。这种方法把向量空间分解成两个相互排斥和互补的字空间:主要子空间(或者特征空间)和它的直角互补。所以,目标密度被分解为两个部分: 主要子空间的密度(主要做成部分)和它的补角(在标准PCA中被放弃)(见图8)。多元高斯和混合高斯被用来学习脸的静态局部特征。这些可能密度被用来对事物进行基于最大形似估计的检测。推荐的这种方法已经被应用到了人脸定位、译码和人脸识别中来。和经典的eigenface方法比起来[163],推荐的这种方法在人脸识别上表现的更好。在人脸检测上,这种技术只能在局部演示;[76]
在[175]中,推荐了一种基于混合要素的检测方法。要素分析法[FA]是一种统计学方法,它利用少量的隐藏变量来构建高维的协方差结构。FA方法在很多方面类似于主成分分析法(PCA)。尽管如此,和FA不同的是,PCA并没有未数据定义合适的密度模型,因为译码一个数据指针和指向主成分子空间的开销是相等的(也就是,密度沿着这些方向是没有规格化的)。另外,PCA对特征数据的独立噪声没有鲁棒性,因为主成分分析法最大化了输入数据变量,所以保留了不期望的变量。在[36][37][9][7]中合成或者真实的样本表明来自PCA子空间的不同类经常被涂污。在样本又特定结构的情况下,从分类的观点看,PCA是不十分理想的。Hinton et al.已经把FA应用到了数字识别当中,他们比较了PCA和FA模型的性能[61]。一种要素分析混合模型已经在应用到人脸识别当中[46]。两个研究都表明,FA在数字和人脸识别中的性能都优于PCA。因为姿势、角度、表情和灯光影响着人脸的表现,所以,图像中的人脸能用多形态密度模型来更好的表示,在这种模型中,每一个形态都用来表现人脸的特定的特征。他们用一种可行的被称为混合要素分析(MFA)的方法来检测多变的人脸。在混合模型中的参数十咏EM算法来估计的。
第二种方法[175]是用Fisher线性判别式(FLD)来把高空间的样本图像投影到低维特征空间。近来,在对几个数据集,包括在可变光条件下建立的Yale人脸数据库进行人脸识别时,使用Fisher方法和其他基于线性判别分析的方法已经表现出胜过广泛应用的Eigenface。一个可能的解释是FLD在模式分类的时候比PCA提供了更好的投影,因为它的目标是找到更多的判别式的投影方向。所以,在投影子空间的分类结果可能要别其他的方法好([97]讨论了有关训练集的大小)。在第二个推荐的方法中,他们使用Kohonen’s Self Organizing Map (SOM)把训练的人脸和非人脸分到不同的子类[80]。图九显示了每个人脸类的原形。在这些重新标明的例子里,内部类和中间类非别计算,所以产生了理想的基于FLD的投影。对每一个子类,它的密度由通过最大可能性的进行参数估计的高斯函数来模拟[36]。为了检测出人脸,每一个输入图像都通过计算可能的人脸区域的矩形窗口进行扫描。最大可能性规则用来决定是否人脸被检测到。两种方法[175]用由619个人脸组成的225幅图像数据集进行测试,结果用MFA方法正确检测率为92.3,使用FLD方法的为93.6。
2.4.3 神经网络
人工神经网络已经成功地应用在许多模式识别问题上,比如字符识别、目标识别和自动机器人驾驶。因为人脸检测可以看作两种模式的识别问题,所以多种神经网络结构可以被应用了。使用人工神经网络的优点是系统网络训练识别复杂人脸模式的可行性。但是网络结构有一个缺点,那就是它必须不断地协调来(许多的层,许多的节点,学习效率等等)取得更好的性能。
一种早期的使用分层神经网络的方法是由Agui提出的[1]。第一个阶段由两个平行的子网络组成,子网络的输入值是来自原始图像的值和一个3*3的Sobel滤波图。第二个阶段的输入是由子网络的输出和抽取的特征值组成的,特征值包括输入样本像素的标准误差、窗口中白色像素和总的二值像素的比例、几何力矩。在第二个阶段的输出表明了输入区域人脸的存在。实验表明,如果在检测图片中所有的人脸的大小是相同的话,这种方法是能够检测出人脸的。Propp和Samal开发了用于人脸检测的最早的神经网络[117]。他们的网络由4层组成,包括1024个输入节点,256个一层隐节点、8个二层隐节点和两个输出节点。后来,一个相似的分层网络在[70]中被提出。早期的Soulie的方法是通过时间延迟神经网络[166]扫描输入图像(使用20*25像素大小的图像)来检测人脸。为了应付大小的不同,输入图像通过小波变化来处理。他们称通过对120幅图像进行检测,错误检测为人脸的几率是2.7%,错误检测为非人脸的几率是0.5%。在[164]中,Vaillant用回旋神经网络来检测图像中的人脸。首先制作成20*20的人脸和非人脸样本,一个神经网络是以一定的比例来找到大概的人脸区域,另一个网络是以相同的比例来决定人脸的精确位置。给定一副图片,第一个网络先把那些可能存在人脸的区域确定为候选区,这些候选区再由第二个网络进行验证。Burel和Carel[12]为人脸检测提出的神经网络采用Kohonen的SOM算法[80],可以把大量的训练样本压缩成少量的样本。为了分类人脸和背景,多层感知机被用来学习这些样本。检测阶段要对每幅图像进行不同的扫描,对每一个确定的不同大小的窗口,要规范到标准的大小,并且要标明平均值和变化以减小光照条件的影响。接着,每一个规范了的窗口通过MLP进行分类。
Feraud和Bernier提出了使用自关联神经网络(autoassociative network)的方法[43], [42], [44].这一主意是建立在[83]提出的5层自关联网络可以处理非线性分析的观点之上的。一个自关联网络被用来检测正面人脸,另一个被用来检测左右旋转60度范围的人脸。在整个子关联网络中,用一个门限网络(A gating network)来为正面和旋转人脸检测器分配权值。在一个小的42张图片的检测样本集中,他们称检测率类似于[126]。这种方法也被用在了LISTEN[126]和MULTRAK[8]中。
Lin提出了基于概率决策的神经网络(PDBNN)[91]。PDBNN网络结构和径向基函数网络(RBF)是很相近的,它的学习规则和概率阐明得到了改进。它并不是把整个人脸图像都转化到一个训练的值空间,而是首先依据人脸区域的值和边缘信息,包括眼眉、眼睛和鼻子来精确特征向量。这两个精确的特征向量被反馈到PDBNN网络,并由输出来决定分类结果。对23幅由Sung和Poggio提供的图像集进行人脸检测,试验结果表明,它的性能可以和其他的学习神经网络相比[154][128]。
在所有使用神经网络进行人脸检测的方法中,最有意义的工作是由Rowey所作的[127][126][128]。用一个多层神经网络通过人脸和非人脸图像来学习人脸和非人脸模式(也就是像素的值和空间联系),在这当中,Sung通过距离测量来找到分类判别式用以分类人脸和非人脸模式。他们用多层神经网络和几个判断方法来提高性能,但Burel和Carel[12]用一个单层的网络,Vaillant也是。[164]用两个网络来分类。这里有两个主要的组件:多重神经网络(检测人脸模式)和判决模块(通过多重神经网络给出最终的判决)。就像图10中显示的,
这种方法的第一个组件是接收一个20*20的像素区域,并输出(-1,1)区间上的值。给出一个测试模式,训练网络的输出就表明了非人脸(距离-1近)或者人脸(距离1近)。为了检测一幅图片中所有的人脸,神经网络被用到了图像的所有区域。为了检测大于20*20的人脸,输入图像被不断的作二次抽样,然后用网络对每一个尺寸的图像进行检测。用将近1050幅的不同大小、不同角度、不同位置和不同亮度的人脸样本来训练网络。在每幅训练图片中,眼镜、鼻子尖、嘴角和嘴的中心被人工的标定,用以把人脸规范到相同的角度和位置。这个方法的第二个组件是合并重叠的检测并在多重网络的输出中判断。为了提高性能,还应用了简单的逻辑操作(AND/OR)。Rowley[127]设计的若干个系统使用了不同的中断策略,比Sung和Poggio的系统有更小的计算代价,在对一个24幅包括144张人脸的图像集进行检测时表现出更高的检测率。Rowley和Sung提出的方法的一个限制就是:他们只能检测出正立的端正人脸。近期,Rowley[129]开发了一个检测旋转人脸的方法,他用一个路由器网络来处理每一个输入窗口来判断可能的人脸旋转角度并且把窗口旋转到规范的角度;神经网络的旋转窗口就像上面所描述的。尽管如此,这个新的系统比起直立人脸检测系统,对直立人脸的检测率不高。然而系统对两个大型的检测集进行检测,只能检测出76.9%的人脸 。
2.4.4 支持向量机(SVM)
支持向量机(SVM)是由Osuna第一次应用到人脸检测的[107]。SVM能被看作一个新的一个新的训练多项功能、神经网络或者是径向基函数分类器的范例。大部分训练分类器的方法(比如贝叶斯、神经网络和RBF)都是基于最小化训练错误,比如经验风险最小化;SVM使用另外一个原则,叫做结构风险最小化,他的目标是使期望风险最小。SVM是一个线形分类器,它的分割超平面被用来最小化未见过的测试模式的期望分类错误。这一理想的超平面是由训练向量的一个小的子集联合定义的,叫做支持向量。估计这一理想的超平面等价于解一个线形二次问题。但是要计算的有时间和存储容量。在[107]中,Osunaet为大尺度问题提出了一个有效的方法来选练SVM,并且应用到了人脸检测。在对一个有10,000,000个19*19的检测集进行检测时,他们的系统错误率很低,并且运行速度大概比Sung和Poggio的系统快30倍[153]。SVM也用到了检测人脸和小波领域[106][108][109]。
2.4.5 SNoW
Yang提出了使用Snow学习体系方法[125],[16]来检测不同特征、不同表情、不同姿势以及不同光照条件的人脸[176]。他们还研究了学习原始图像并且多尺寸特征的影响。SNow(Sparse Network of Winnows)是具有线性功能的稀有网络,它利用了Winnow更新规则[92]。在学习时被表明,域中隐藏的一些特征占据了决策的大部分,但是已开始并不知道。它的学习体系得特点是它有较少的连接单元、特征的分配、数据的连接、决策机构和有效的更新规则的应用。在训练SNow训练器时,来自Olivetti [136], UMIST [56], Harvard [57], Yale [7], 和 FERET [115]数据库德1681幅人脸图像被用来体现人脸模式的变化。和其他方法比起来,他们报道的结果是指用两个包括225幅图片619张人脸的数据集[128],错误率为5.9%。对数据集1[128]进行检测,这一技术的性能和其他方法包括使用神经网络法[128]、熵相对信息(Kullback relative information)[24]、朴素Bayes分类器(naive Bayes classifier) [140]和支持向量机[107]的性能一样的好,而且计算更高效。表4显示的和其他检测方法的性能比较。
2.4.6
和[107], [128], [154] 中使用全局人脸的模式相反,Schneiderman 和Kanade使用了朴素Bayes分类器来估计人脸模式的局部表情和位置(人脸的子区域)的联合概率.他们强调局部,因为一个物体的局部模式比其他的更具有唯一性;眼睛周围的模式比脸颊周围的更重要。有两个原因使用朴素Bayes分类器。第一,它提供了子区域条件密度的更好的估计;第二,朴素Bayes分类器提供了后验概率的函数形式用以得到物体局部表现和位置的联合概率。在每一个尺度,一张人脸图像被分解到4个矩形的子区域。这些子空间用PCA方法映射到一个低维的空间里面,并且量化到一个有限的模式集,然后这些影射样本和局部表现被用来估计投影子空间的统计。在这一规则下,他们的方法决定:当相似率比先验概率大时,判断人脸的出现。对数据集[128]进行检测,正确率为93%,这一方法和[128]比较显示了相当的性能,而且能够检测一些旋转人脸和人脸轮廓。Schneiderman和Kanade用这种方法和小波结合来检测人脸轮廓和汽车[141]。
一个相关的方法是由Rickert提出的,它使用局部特征的联合概率模型[124]。局部通过使用多尺度和滤波器来输入到图像。特征向量(比如滤波反映)通过聚类数据进行估计,接着组成一个混合高斯模型。在模型训练和近一步的精简后,测试图像通过计算图像特征与模型的相似度来分类。他们在人脸和汽车上的实验显示了很好的结果。
2.4.7 隐马尔科夫模型
隐马尔科夫模型潜在的假设是:模式能够表现为随机参数的处理过程和这个过程的处理参数能够被一个精确的有良好定义的行为所估计。在用HMM进行模式识别时的问题是,需要先定义许多隐状态以构成模型。接着,我们可以用代表观测值序列的例子来训练HMM学习状态间变迁的概率。选练HMM的目的就是通过使用标准的Viterbi分割方法和Baum-Welch法则[122]来调节HMM模型的参数,以最大化观测值训练值的概率。在HMM训练之后,观测值概率输出决定属于哪一类。
直观上人脸模式能够分成若干区域,比如前额、眼睛、鼻子、嘴巴和下巴。以适当的顺序检测这些区域以检测人脸(从上到下和从左到右)。这种方法并不是像模板匹配或者基于表现的方法一样(人脸特征,比如眼睛和鼻子需要联合来代表一个参考点)依靠各个区域的联合,它的目标是使人脸区域和HMM连续的特征密度相结合.基于HMM的方法通常把人脸看作观测向量序列,其中的每一个向量都是一个像素,就像图11a所示的。在训练和检测过程中,图像以某种顺序扫描(通常是从上到下)并且观测值被当作一块像素,如图 11a 所示。为了检测人脸,像素间的边界通过状态间的转化概率来表示,如图11b所示,并且区域内的图像数据由多变量的高斯函数来模拟。每一个观测序列都是由每一块的像素值所组成的,输出状态和观测值从属的类相对应。在HMM训练后,由观测值的输出概率来决定它属于哪一类。HMM已经被用到了人脸识别和人脸定位中。Samaria [136]显示他训练的HMM状态和人脸区域相对应,如图11b所示。也就是说,一个状态负责额头的观测向量,另一个状态负责人眼睛的观测向量。为了人脸的定位,HMM通过收集的大量人脸图像,被训练的对普通人脸有识别能力。如果获得的图像中每个矩形模式的相似度高于已开始的,那么人脸就被确定了。
Samaria和Young使用了1D和假冒的2D的HMM来抽取人脸特征和进行人脸识别[135], [136]。他们的HMM使用了人脸的结构来加强特征变化的约束。当重要的人脸区域,比如头发、额头、眼睛、鼻子和嘴以从上到下的自然的顺序出现时,那么每个区域被分配给一维连续HMM的一个状态。图11b显示了这5个隐状态。为了选练,每个图像都要从上到下的分成5个状态(比如每个图像被分成5个不重叠的平均大小的区域)。接着这几个分割被Viterbi分割取代,并且HMM的参数使用Baum-Welch算法进行重新估计。就像图 11a 显示的,设一个宽W高H的图像被分成高L宽W的重叠块。连续的块的交叠在垂直方向有P行,这些图像观察序列块和训练的HMM用来决定输出。和[135]相似,Nefian和Haye应用HMM和KLT来进行人脸的定位和识别[104].它并不是用行强度值,它的观察向量是由输入向量的计算得出的KLT系数组成的。他们在人脸识别上的试验表现出了比[135]更好的识别效率。对包括432幅只有单人脸的MIT数据库进行测试,这种2D的HMM系统得成功识别率由90%。
Rajagopalan提出了进行人脸检测的两种概率方法[123],和[154]的使用多元高斯来分布人脸相反,[123]中的第一种方法是使用高阶统计量HOS(higher order statistics)进行密度估计。和[154]相似的是,人脸和非人脸的未知分配都是用了基于高阶统计量HOS的六个密度函数。在[152]中,用一个多层感知机来进行分类,输入向量是由图像模式和12个模型间的测量的12个距离组成的。[123]中使用的第二种方法是用HMM来学习一幅图像中从人脸到非人脸和从非人脸到人脸的变化。这种方法是基于从图像产生的观测序列和与之对应的HMM的学习参数。要学习的观测序列首先由计算子图像到由第一种方法估计产生的12个人脸和非人脸中心的距离得到的。学习完成后,理想状态序列被进一步处理。试验结果表明,HOS和HMM两种方法比[128][154]有较高的检测效率,但是也有更多的错误警告。
2.4.8 信息理论法(Information-Theoretical Approach)
人脸模式的空间性质能通过不同的方面来模拟。人脸的约束关系是很有用的,经常被应用到纹理的分割当中。人脸模式的约束常用小邻域的像素来标明。马尔可夫随机域(Markov random field (MRF))理论提供便利和一致的方式来模拟上下文依赖实体,比如图像像素和相互特征。这可以通过使用有条件的MRF刻画实体间相互的影响来得到。按照Hammersley-Clifford法则,MRF能够用Gibbs来等价的表示,并且参数经常最大化后来的(MAP)估计[119]。人脸和非人脸区分能够用柱状图来估计。使用熵相对信息,两类的最大信息辨别的马尔科夫能够用来检测[89], [24]。
Lew把熵相对信息[26]应用到了人脸检测上,他用概率函数p(x)代表模板是人脸,用q(x)代表模板非人脸[89]。一个由9张图包含100个人脸的数据库用来估计人脸的分配。非人脸概率密度是用柱状图队143000个非人脸模板的估计得来的。在训练集中,具有最大的信息的像素(MIP)化p(x)和q(x)之间的熵相对信息(例如给出最大的类间隔)。试验表明,MIP主要集中在眼睛和嘴的区域,而不是鼻子。接着MIP被用来获得线形分类特征,代表方法有ukunaga和Koontz [47]。为了检测人脸,用一个窗口在图像上移动,计算和人脸空间(DFFS)的距离。如果DFFS到人脸子空间的距离比到非人脸子空间的距离要小的化,则假设窗口中没有人脸。
Colmenarez和Huang也用熵相对信息来最大化人脸样本正面和反面间的信息基础分配[24]。来自每个类训练集的图像(人脸和非人脸)被看作随机过程的观测,并且可以用两个概率函数来表示。他们用离散的马尔科夫来模拟人脸、背景样式,并且估计出概率模型。学习过程被转化到一个理想的马尔科夫处理过程,它可以最大化两个类的基本区别信息。相似度是用训练概率模型来计算的,用以检测人脸。
Qian和Huang[119]提供了一种方法,这种做法采用了以视觉和模型为基础的策略。首先,采用视觉关注算法,这种高水准的该领域的知识,以便于缩小寻找范围。这种结果可以通过把目标集中在有探测运算法(分水岭法)则得出的区域地图上,从而获取图像范围。在一选择的范围内,就可以采用模版匹配及人脸特征的相结合方法来检测,这种发发采用了分等级的马尔科夫随机域和最大化的后验可能性。
2.4.9 归纳学习(Inductive Learning)
归纳学习算法也被用在了人脸定位和人脸检测中。Huang应用Quinlan的C4.5算法[121]从人脸模式的正反面例子来学习决策树[64]。每一个训练样本都是一个8*8的窗口。通过这些例子,C4.5建立了一个个分类器作为决策树,决策树的叶子代表类,节点代表对某一个单一属性的检验。学习过的决策树用来决定输入图像中是否存在人脸。对来自FERET数据集的2340张正立人脸的进行检测,实验结果表明,定位人脸的正确率为96%。
Duta和Jain[38]使用Mitchell的Find-S算法[101]来学习人脸的概念。和[154]相似,他们断定人脸模式的分布p(x|face)能够用高斯函数来估计,并且从一个人脸事例到其中一个组质心的距离应该小于这个组的任何一点到质心的距离。接着用Find-S算法来学习人脸和非人脸能够区分开的距离。这种方法有许多独特的方法,第一它没有用非人脸样本,但是[154], [128]使用了人脸和非人脸样本;第二,只有人脸的中心部分被用来训练;第三,特征向量是由32个值或者纹理的图像组成的,但是[154]使用的所有尺度的值最为输入。对CMU的第一个数据集合测试,这种方法得到了90%成功率。
2.5讨论
我们复习并且把人脸检测方法分成了4个大的类别。但是,许多方法能分化到多于一个的类别。例如模板匹配方法经常使用人脸模型和子模板来精确人脸特征[132], [27], [180], [143], [51],然后用这些特征来定位或者检测人脸。另外,基于知识的方法和一些模板匹配方法的界限是不清楚的,因为后者经常隐含的使用人的知识来定义人脸模板[132], [28], [143]。还有, 人脸检测的方法也能够用其他的分类规则来分,例如,这些方法可以依据是否依赖于局部特征[87], [140], [124]或者把人脸作为整体[154], [128]。但是我想把方法分为这4大类别是很恰当和充分的。
3 人脸图像库和性能评价
大部分的检测方法需要人脸图像的训练数据集,而且这些当初为人脸识别而建立的数据库可以作为人脸检测的训练数据集。因为这些数据库是为了特定领域的人脸识别算法而建立的,所以,我们首先来看一看这些数据库的特点和它在人脸检测方面的应用。虽然提出了好多人脸检测算法,但是他们大部分都没有在大数量的数据集上进行检测。而且绝大多数的实验结果是使用不同的数据集得出的。为了方法比较的公平性,最近已经建立的一些基准数据集。我们再看看这些基准数据集,再讨论一下他们的特点。当不同的方法使用同一个数据集合时,仍然有一些在性能评价方面应该注意的地方。其中之一就是,研究员们对“成功检测”有不同的阐述。另一个是不同的训练集被用在基于表现的方法上。我们通过讨论这些观点来得出几轮。
3.1人脸图像数据库
虽然已经出现了好多人脸检测的方法,当时很少有人会去注意用作人脸检测的数据库的发展。FERET数据库是由正面和左右旋转的人脸组成的[115],只有个体的上半部分(主要是头和脖子),而且在整齐的背景下统一着装。FERET数据库被用来评估不同人脸检测的强度和缺点[115]。因为每幅图像都是在整齐的背景下统一着装,所以它不适合作人脸检测的基准。许多数据库也都这样,使为了开发和检测人脸识别算法而建立的。Turk和 Pentland建立了16个人的数据库[163](可以用ftp://whitechapel.media.mit.edu/pub/images/),这些图像是在不同的背景下,从正面拍得并且头部有较小的旋转(正立、左、右)。来自AT&T剑桥实验室的人脸数据库(以前称作Olivetti数据库)是由10幅为40个截然不同的项目准备的图像组成的(可以用http://www.uk.research.att.com/facedatabase.html) [136]。图像是在不同时间、可变光照、不同表情和不同人脸细节(眼镜)下得到的。Harvard数据库的图片是在变化很大的光源下拍摄的[57],Hallinan使用它来研究可变光条件下的人脸识别。Yale人脸数据库(可以见http://cvc.yale.edu/)是由16个个体组成的,每个人在不同的人脸表情、有或者无眼镜和不同的光照下有10幅正面图像[7]。来自欧洲ACTS项目的M2VTS数据库是为了控制实验使用的多模式输入而开发的[116]。他包含37个人脸图像。每一个图像序列都包含从右侧(-90度)到左侧(90度)的图像,用他的国语说是从“ 0” 到“ 9” 。 UMIST数据库由20个在不同姿势下的564幅图片组成,每一组图片都有从右到正面的姿势[56]。Purdue AR数据库拥有126个人(70个男的和56个女的)的3247幅彩色正立图片[96]。这个数据库是为多种因素影响下的人脸识别实验而设计的,比如人脸表情、关照条件和偶然情况。所有的人脸都有不同的表情(自然、微笑、生气和尖叫),有不同的关照(左光源、右光源和来自两侧的光源),还有存在的偶然因素(戴太阳镜或者头巾)。图像是在2次会议里拍摄的,它们都是用同一个相机在固定的光照和姿势下拍摄的。人脸数据库已经应用到了图像、视频索引还有图像恢复上[96]。表2总结了前面提到的数据库。
3.2基准人脸检测集
上面说到了人脸数据库主要是为了测试人脸识别方法的性能而设计的,所以呢,每张图片只有一个人。因此这样的数据库最好用来作为训练集而不是检测集。人们默许在检测集上进行分类器的比较,是因为这样的数据集所代表的可能就是系统在真实世界中所面对的问题,还有对这些基准图像测试的高性能就可以在现实任务中表现出高性能。Toward等研究员从收集的大量有变化的图片中编辑了数据集。Sung和Poggio为人脸检测建立了两个数据库[152], [154]。第一个是由71个不同的人的301幅正面或者接近正面的图片组成的,这些图片有着均匀光照变化的高质量数字图像。第二个是由有149个人脸的23幅图片组成的,其中大多数有着复杂的背景并且脸只占据了整幅图像的小部分。最常用的人脸数据库是由Rowley等建立的[127], [130],(可以见http://www.cs.cmu.edu/~har/faces.html)。这个数据库共有包含507张人脸的130幅图片,并且它包含了Sung和 Poggio [154]使用的有23张图片的第二个数据集合,大部分图片是在复杂背景下包含了多余一个的人脸,所以这是一个评价检测正立人脸算法的好的检测集。图12显示了由Sung和Poggio [154]收集的数据集,图13是由Rowley等[128]收集的。Rowley等人还为检测正面有旋转角度的2D人脸而建立了数据库[129],它包含了有223个人脸的50幅图片,其中的210个人脸的循转角度大于10度。图14显示了数据集中的一些旋转图片。为了测试检测方法的性能,Schneiderman和Kanade收集的208幅图片所包含的是有着人脸轮廓和表情的人脸[141],图15显示了检测集合中的一些图像。
近日,Kodak建立了一个作为人脸检测和人脸识别算法基准的通用测试集[94]。这个数据库有300个数码照片,都是在多变环境下拍摄的,而且图像大小从13*13到300*300不等。表3总结了前面提到的人脸检测集的特点。
3.3 性能评估
为了对人脸检测方法做出公平的评估,在实验中使用标准的有代表性的检测集合是很重要的。虽然在过去的10年里出现了很多人脸检测方法,但是只有很少一部分是在同一个测试集上进行测试的。表4总结了若干种基于表相的人脸检测方法的性能,它们都是建立在前面提到的标准数据库基础上的。
虽然表四显示了在相同数据集合上这些方法的性能,但是那样的评估可能不能体现在这一领域这些方法能够多么好的进行比较,有几个因素使得这些基于表象的方法的评估变得复杂:第一,他们报道的试验结果是建立在不同的训练集合之上的,和不同的调节参数,训练样本的数量和变化直接影响到分类的性能。但是,如果我们评估的目标是系统的性能而非学习方法时,在性能评估中这些因素却经常被忽略;第二个因素是训练时间和执行时间。尽管有些系统不考虑训练时间,但是对那些需要对不同的数据集进行联机训练的实时系统来说,这可能很重要;第三,在这些方法中扫描窗口的数量不同,因为要设计它们来应对不同的环境(比如检测不同大小的人脸),例如,Colmenarez和Huang提到,他们的方法比其他的要扫描更多的窗口,所以,错误检测的数目要比别人多[24]。另外,大部分系统报道的检测速率所采用的标准没有明确的描述。图 16a 显示了检测图像,图16b显示了要分为人脸或者非人脸的子图。假设图16b中的子图都分类为人脸模式,一些评价标准可能把他们都当成正确的检测,但是呢,更严格的标准(每一个正确的检测必须包含图像中所有可见的眼睛、嘴)可能把它们都看作错误。很显然,应该有一个统一的标准来衡量不同的分类器的好坏。在[128]中,Rowley等,不断地调节横量标准直到试验结果和他们的知觉相符为止,而且检测窗口应该包含眼睛和鼻子。他们最后采用的标准是:检测框的中心必须在4个像素里,并且检测的尺寸必须是1.2的倍数。
最后,评估标准可能或者应该依靠检测者的目的而定。如果检测者想要计算人的数量,那么以错检或者漏检的总数为标准是恰当的;另外,如果想要证明某某是某某,那么人脸检测的额外的错检是可以接受的,因为这些错误的检测不可能被当作这个人的图像,那么这个人这个人就被拒绝。另外,错误的代价可以通过Bayes决策规则来很好的表示(请看2.2-2.4部分)[36]。这一话题得到了最近一些研究的支持,他们指出分类器的准确性(再比如在人脸检测上的检测率)并不适合作为所有 现实世界任务的目标[118],其中一个原因是分类正确性假设平均错误分类代价。这一假设是由问题的,因为对大多数现实世界问题,分类的一种类型的错误可能比另外的有更高的代价。在某些人脸检测的应用中,检测到所有的人脸是很重要的;另一个原因是,最大正确性假设类的分配是目标环境所知道的,也就是说,我们假设检测数据集代表了真实的人脸检测的工作环境,这一假设是很少能够证明的。
当检测方法在现实系统中得以应用时,一件重要的事情就是要考虑什么样的计算源是需要的、有显著效果、节省时间和内存。正确性可能要以牺牲速度为代价。
在评估中考虑的技术范围也是很重要的。在本调查中,我们讨论了最少4种人脸检测所面临的不同形式的问题:
1. 在单人脸图像中定位人脸,目标是提供一个合适的位置估计;和用作人脸识别输入的尺度。
2.在混乱的场景下检测所有的人脸。
3.在彩色图像中,检测(定位)所有的人脸。
4.在视频序列中检测和定位所有人脸。
当对这些不同的检测情况进行评价时,评估协议应该仔细的设计。应该注意的是,当使用普通的适度大小的标准测试图片时会有潜在的危险。当研究者们想要改进方法或者想提高检测性能时,他们可能会采用一种不受欢迎的方式:在训练集合上测试。按理说最近的方法不使用这种虚的检测集合就能表现出较好的性能,但是呢,情况并非如此。这种情况能够通过使用大量的并且有代表性的普通的检测集而得以避免,另外一种方法可以在小的检测集上进行评估,如果每次方法的评估用到的检测集都是随即抽取(产生)的。总之公平高效的性能评估需要仔细的设计协议、范围和数据集合等。这样的争论在好多问题上都引起了众人的注意[21], [60], [142], [115]。但是,做出评估或者宣布哪一个方法“获胜”不在本次研究的讨论范围之内。我们希望从事人脸检测的研究者或第三方能从事这项工作,到那时,研究者能在公共的数据集上报道他们的研究结果。为了实现迈出的第一步,我们收集了一部份人脸检测代码和评估工具放在了网站上:http://vision.ai.uiuc.edu/mhyang/face-detection-survey.html.
4 讨论和总结
本论文尝试着在人脸检测上做出广泛的调查,并为150篇论文的方法提出了结构性的分类。在适当的时候,我们也谈到了方法之间联系。但是呢,我们认识到,在方法的评估上缺乏统一性,所以要说哪种方法的检测率最低时很轻率的,从而,我们鼓励社会团体能够发展并共享检测集使得以后的报道结果具有可比性。我们也觉得社会团体需要更严格的考虑有系统的评估:这样人脸检测算法的使用者们知道哪种方法在那个领域是具有竞争力的。虽然在过去的20年里我们取得了很有意义的进步,但是还是有很多工作要去做,而且我们相信,一种具有鲁棒性的检测系统在多条件变化下应该高效:
1:光照条件 2:旋转、姿势和局部的偶然性 3:人脸表情 4:戴不戴眼镜、头发和发型的变化
人脸检测本身是一件很具有挑战性和有趣的事情,同时呢它也可以看作计算机视觉的其中一个待解决的难题:物体类别识别。人脸类别对不同的个体、头发、眼镜和化妆品具有很大的形状、颜色和反射光,图像处在不同的光照和三维的姿势和混乱的背景下。所以,人脸检测研究面对的是目标检测和物体识别整个范围的挑战。但是人脸类也有它外观上的一至性,这种一至性被许多具有启发性质、基于模型的或者数据驱动学习的方法所发掘。我们在定义通用的类是,希望找到一些非外观的规律性的东西。最后,虽然人脸具有很大的变化性,但是它仍然是两个的识别问题(人脸和非人脸)
[1] T. Agui, Y. Kokubo, H. Nagashashi, and T. Nagao, “Extraction of
FaceRecognition from Monochromatic Photographs Using Neural
Networks,” Proc. Second Int’l Conf. Automation, Robotics, and
Computer Vision, vol. 1, p p. 18.8.1 -18.8.5, 1992.
[2] N. Ahuja, “A Transform for Multiscale Image Segmentation by
Integrated Edge and Region Detection,” IEEE Trans. Pattern
Analysis and Machine Intelligence, vol. 18, no. 9, pp. 1211-1235,
Sept. 1996.
[3] Y. Amit, D. Geman, and B. Jedynak, “Efficient Focusing and
Face Detection,” Face Recognition: From Theory to Applications,
H. Wechsler, P.J. Phillips, V. Bruce, F. Fogelman-Soulie, and
T.S. Huang, eds., vol. 163, pp. 124-156, 1998.
[4] Y. Amit, D. Geman, and K. Wilder, “Joint Induction of Shape
Features and Tree Classifiers,” IEEE Trans. Pattern Analysis and
Machine Intelligence, vol. 19, no. 11, pp. 1300-1305, Nov. 1997.
[5] T.W. Anderson, An Introduction to Multivariate Statistical Analysis.
New York : John Wiley, 1984.
[6] M.F. Augusteijn and T.L. Skujca, “Identification of Human Faces
through Texture-Based Feature Recognition and Neural Network
Technology,” Proc. IEEE Conf. Neural Networks, pp. 392-398, 1993.
[7] P. Belhumeur, J. Hespanha, and D. Kriegman, “Eigenfaces vs.
Fisherfaces: Recognition Using Class Specific Linear Projection,”
IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 19, no. 7,
pp. 711-720, 1997.
[8] O. Bernier, M. Collobert, R. Fe´raud, V. Lemarie, J.E. Viallet, and D.
Collobert, “MULTRAK: A System for Automatic Multiperson
Localization and Tracking in Real-Time,” Proc. IEEE Int’l Conf.
Image Processing, pp. 136-140, 1998.
[9] C.M. Bishop, Neural Networks for Pattern Recognition. Oxford Univ.
Press, 1995.
54 IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 24, NO. 1, JANUARY 2002
[10] C. Breazeal and B. Scassellati, “A Context-Dependent Attention
System for a Social Robot,” Proc. 16th Int’l Joint Conf. Artificial
Intelligence, vol. 2, pp. 1146-1151, 1999.
[11] L. Breiman, J. Friedman, R. Olshen, and C. Stone, Classification and
Regression Trees. Wadsworth , 1984.
[12] G. Burel and D. Carel, “Detection and Localization of Faces on
Digital Images,” Pattern Recognition Letters, vol. 15, no. 10, pp. 963-
967, 1994.
[13] M.C. Burl, T.K. Leung, and P. Perona, “Face Localization via
Shape Statistics,” Proc. First Int’l Workshop Automatic Face and
Gesture Recognition, pp. 154-159, 1995.
[14] J. Cai, A. Goshtasby, and C. Yu, “Detecting Human Faces in Color
Images,” Proc. 1998 Int’l Workshop Multi-Media Database Management
Systems, pp. 124-131, 1998.
[15] J. Canny, “A Computational Approach to Edge Detection,” IEEE
Trans. Pattern Analysis and Machine Intelligence, vol. 8, no. 6,
pp. 679-698, June 1986.
[16] A. Carleson, C. Cumby, J. Rosen, and D. Roth, “The SNoW
Learning Architecture,” Technical Report UIUCDCS-R-99-2101,
Univ. of Illinois at Urbana-Champaign Computer Science Dept.,
1999.
[17] D. Chai and K.N. Ngan, “Locating Facial Region of a Head-and-
Shoulders Color Image,” Proc. Third Int’l Conf. Automatic Face and
Gesture Recognition, pp. 124-129, 1998.
[18] R. Chellappa, C.L. Wilson, and S. Sirohey , “Human and Machine
Recognition of Faces: A Survey,” Proc. IEEE, vol. 83, no. 5, pp. 705-
740, 1995.
[19] Q. Chen, H. Wu, and M. Yachida, “Face Detection by Fuzzy
Matching,” Proc. Fifth IEEE Int’l Conf. Computer Vision, pp. 591-596,
1995.
[20] D. Chetverikov and A. Lerch, “Multiresolution Face Detection,”
Theoretical Foundations of Computer Vision, vol. 69, pp. 131-140,
1993.
[21] K. Cho, P. Meer, and J. Cabrera, “Performance Assessment
through Bootstrap,” IEEE Trans. Pattern Analysis and Machine
Intelligence, vol. 19, no. 11, pp. 1185-1198, Nov. 1997.
[22] R. Cipolla and A. Blake, “The Dynamic Analysis of Apparent
Contours,” Proc. Third IEEE Int’l Conf. Computer Vision, pp. 616-
623, 1990.
[23] M. Collobert, R. Fe´raud, G.L. Tourneur, O. Bernier, J.E. Viallet, Y.
Mahieux, and D. Collobert, “LISTEN: A System for Locating and
Tracking Individual Speakers,” Proc. Second Int’l Conf. Automatic
Face and Gesture Recognition, pp. 283-288, 1996.
[24] A.J. Colmenarez and T.S. Huang, “Face Detection with Information-
Based Maximum Discrimination,” Proc. IEEE Conf. Computer
Vision and Pattern Recognition, pp. 782-787, 1997.
[25] T.F. Cootes and C.J. Taylor, “Locating Faces Using Statistical
Feature Detectors,” Proc. Second Int’l Conf. Automatic Face and
Gesture Recognition, pp. 204-209, 1996.
[26] T. Cover and J. Thomas, Elements of Information Theory. Wiley
Interscience, 1991.
[27] I. Craw, H. Ellis, and J. Lishman, “Automatic Extraction of Face
Features,” Pattern Recognition Letters, vol. 5, pp. 183-187, 1987.
[28] I. Craw, D. Tock, and A. Bennett, “Finding Face Features,” Proc.
Second European Conf. Computer Vision, pp. 92-96, 1992.
[29] J.L. Crowley and J.M. Bedrune, “Integration and Control of
Reactive Visual Processes,” Proc. Third European Conf. Computer
Vision, vol. 2, pp. 47-58, 1994.
[30] J.L. Crowley and F. Berard, “Multi-Modal Tracking of Faces for
Video Communications,” Proc. IEEE Conf. Computer Vision and
Pattern Recognition, pp. 640-645, 1997.
[31] Y. Dai and Y. Nakano, “Extraction for Facial Images from
Complex Background Using Color Information and SGLD
Matrices,” Proc. First Int’l Workshop Automatic Face and Gesture
Recognition, pp. 238-242, 1995.
[32] Y. Dai and Y. Nakano, “Face-Texture Model Based on SGLD and
Its Application in Face Detection in a Color Scene,” Pattern
Recognition, vol. 29, no. 6, pp. 1007-1017, 1996.
[33] T. Darrell, G. Gordon, M. Harville, and J. Woodfill, “Integrated
Person Tracking Using Stereo, Color, and Pattern Detection,” Int’l
J. Computer Vision, vol. 37, no. 2, pp. 175-185, 2000.
[34] A. Dempster, “A Generalization of Bayesian Theory,” J. Royal
Statistical Soc., vol. 30, pp. 205-247, 1978.
[35] G. Donato, M.S. Bartlett, J.C. Hager, P. Ekman, and T.J. Sejnowski,
“Classifying Facial Actions,” IEEE Trans. Pattern Analysis and
Machine Intelligence, vol. 21, no. 10, pp. 974-989, Oct. 2000.
[36] R.O. Duda and P.E. Hart, Pattern Classification and Scene Analysis.
New York : John Wiley, 1973.
[37] R.O. Duda, P.E. Hart, and D.G. Stork, Pattern Classification. New
York : Wiley-Intersciance, 2001.
[38] N. Duta and A.K. Jain, “Learning the Human Face Concept from
Black and White Pictures,” Proc. Int’l Conf. Pattern Recognition,
pp. 1365-1367, 1998.
[39] G.J. Edwards, C.J. Taylor, and T. Cootes, “Learning to Identify and
Track Faces in Image Sequences.” Proc. Sixth IEEE Int’l Conf.
Computer Vision, pp. 317-322, 1998.
[40] I.A. Essa and A. Pentland, “Facial Expression Recognition Using a
Dynamic Model and Motion Energy,” Proc. Fifth IEEE Int’l Conf.
Computer Vision, pp. 360-367, 1995.
[41] S. Fahlman and C. Lebiere, “The Cascade-Correlation Learning
Architecture,” Advances in Neural Information Processing Systems 2,
D.S. Touretsky, ed., pp. 524-532, 1990.
[42] R. Fe´raud, “PCA, Neural Networks and Estimation for Face
Detection,” Face Recognition: From Theory to Applications,
H. Wechsler, P.J. Phillips, V. Bruce, F. Fogelman-Soulie, and
T.S. Huang, eds., vol. 163, pp. 424-432, 1998.
[43] R. Fe´raud and O. Bernier, “Ensemble and Modular Approaches
for Face Detection: A Comparison,” Advances in Neural Information
Processing Systems 10, M.I. Jordan, M.J. Kearns, and S.A. Solla, eds.,
pp. 472-478, MIT Press, 1998.
[44] R. Fe´raud, O.J. Bernier, J.-E. Villet, and M. Collobert, “A Fast and
Accuract Face Detector Based on Neural Networks,” IEEE Trans.
Pattern Analysis and Machine Intelligence, vol. 22, no. 1, pp. 42-53,
Jan. 2001.
[45] D. Forsyth, “A Novel Approach to Color Constancy,” Int’l J.
Computer Vision, vol. 5, no. 1, pp. 5-36, 1990.
[46] B.J. Frey, A. Colmenarez, and T.S. Huang, “Mixtures of Local
Subspaces for Face Recognition,” Proc. IEEE Conf. Computer Vision
and Pattern Recognition, pp. 32-37, 1998.
[47] F. Fukunaga and W. Koontz , “Applications of the Karhunen-
Loe`ve Expansion to Feature Selection and Ordering,” IEEE Trans.
Computers, vol. 19, no. 5, pp. 311-318, 1970.
[48] K. Fukunaga, Introduction to Statistical Pattern Recognition. New
York : Academic, 1972.
[49] Z. Ghahramani and G.E. Hinton, “The EM Algorithm for Mixtures
of Factor Analyzers,” Technical Report CRG-TR-96-1, Dept.
Computer Science, Univ. of Toronto , 1996.
[50] R.C. Gonzalez and P.A. Wintz, Digital Image Processing. Reading :
Addison Wesley, 1987.
[51] V. Govindaraju, “Locating Human Faces in Photographs,” Int’l J.
Computer Vision, vol. 19, no. 2, pp. 129-146, 1996.
[52] V. Govindaraju, D.B. Sher, R.K. Srihari, and S.N. Srihari, “Locating
Human Faces in Newspaper Photographs,” Proc. IEEE Conf.
Computer Vision and Pattern Recognition, pp. 549-554, 1989.
[53] V. Govindaraju, S.N. Srihari, and D.B. Sher, “A Computational
Model for Face Location,” Proc. Third IEEE Int’l Conf. Computer
Vision, pp. 718-721, 1990.
[54] H.P. Graf, T. Chen, E. Petajan, and E. Cosatto, “Locating Faces and
Facial Parts,” Proc. First Int’l Workshop Automatic Face and Gesture
Recognition, pp. 41-46, 1995.
[55] H.P. Graf, E. Cosatto , D. Gibbon, M. Kocheisen, and E. Petajan,
“Multimodal System for Locating Heads and Faces,” Proc. Second
Int’l Conf. Automatic Face and Gesture Recognition, pp. 88-93, 1996.
[56] D.B. Graham and N.M. Allinson, “Characterizing Virtual Eigensignatures
for General Purpose Face Recognition,” Face Recognition:
From Theory to Applications, H. Wechsler, P.J. Phillips,
V. Bruce, F. Fogelman-Soulie, and T.S. Huang, eds., vol. 163,
pp. 446-456, 1998.
[57] P. Hallinan, “A Deformable Model for Face Recognition Under
Arbitrary Lighting Conditions,” PhD thesis, Harvard Univ. , 1995.
[58] C.-C. Han, H.-Y.M. Liao, K.-C. Yu, and L.-H. Chen, “Fast Face
Detection via Morphology-Based Pre-Processing,” Proc. Ninth Int’l
Conf. Image Analysis and Processing, pp. 469-476, 1998.
[59] R.M. Haralick, K. Shanmugam, and I. Dinstein, “Texture Features
for Image Classification,” IEEE Trans. Systems, Man, and Cybernetics,
vol. 3, no. 6, pp. 610-621, 1973.
[60] M. Heath, S. Sarkar, T. Sanocki, and K. Bowyer, “A Robust Visual
Method for Assessing the Relative Performance of Edge Detection
Algorithms,” IEEE Trans. Pattern Analysis and Machine Intelligence,
vol. 19, no. 12, pp. 1338-1359, Dec. 1997.
[61] G.E. Hinton, P. Dayan, and M. Revow, “Modeling the Manifolds
of Images of Handwritten Digits,” IEEE Trans. Neural Networks,
vol. 8, no. 1, pp. 65-74, 1997.
YANG ET AL.: DETECTING FACES IN IMAGES: A SURVEY 55
[62] H. Hotelling, “Analysis of a Complex of Statistical Variables into
Principal Components,” J. Educational Psychology, vol. 24, pp. 417-
441, pp. 498-520, 1933.
[63] K. Hotta, T. Kurita, and T. Mishima, “Scale Invariant Face
Detection Method Using Higher-Order Local Autocorrelation
Features Extracted from Log-Polar Image,” Proc. Third Int’l Conf.
Automatic Face and Gesture Recognition, pp. 70-75, 1998.
[64] J. Huang, S. Gutta, and H. Wechsler, “Detection of Human Faces
Using Decision Trees,” Proc. Second Int’l Conf. Automatic Face and
Gesture Recognition, pp. 248-252, 1996.
[65] D. Hutenlocher, G. Klanderman, and W. Rucklidge, “Comparing
Images Using the Hausdorff Distance,” IEEE Trans. Pattern
Analysis and Machine Intelligence, vol. 15, pp. 850-863, 1993.
[66] T.S. Jebara and A. Pentland, “Parameterized Structure from
Motion for 3D Adaptive Feedback Tracking of Faces,” Proc. IEEE
Conf. Computer Vision and Pattern Recognition, pp. 144-150, 1997.
[67] T.S. Jebara, K. Russell, and A. Pentland, “Mixtures of Eigenfeatures
for Real-Time Structure from Texture,” Proc. Sixth IEEE Int’l
Conf. Computer Vision, pp. 128-135, 1998.
[68] I.T. Jolliffe, Principal Component Analysis. New York : Springer-
Verlag, 1986.
[69] M.J. Jones and J.M. Rehg, “Statistical Color Models with
Application to Skin Detection,” Proc. IEEE Conf. Computer Vision
and Pattern Recognition, vol. 1, pp. 274-280, 1999
[70] P. Juell and R. Marsh, “A Hierarchical Neural Network for
Human Face Detection,” Pattern Recognition, vol. 29, no. 5, pp. 781-
787, 1996.
[71] T. Kanade, “Picture Processing by Computer Complex and
Recognition of Human Faces,” PhD thesis, Kyoto Univ. , 1973.
[72] K. Karhunen, “Uber Lineare Methoden in der Wahrscheinlichkeitsrechnung,”
Annales Academiae Sciientiarum Fennicae, Series AI:
Mathematica-Physica, vol. 37, pp. 3-79, 1946. (Translated by RAND
Corp., Santa Monica , Calif. , Report T-131, Aug. 1960).
[73] M. Kass, A. Witkin, and D. Terzopoulos, “Snakes: Active Contour
Models,” Proc. First IEEE Int’l Conf. Computer Vision, pp. 259-269,
1987.
[74] R. Kauth, A. Pentland, and G. Thomas, “Blob: An Unsupervised
Clustering Approach to Spatial Preprocessing of MSS Imagery,”
Proc. 11th Int’l Symp. Remote Sensing of the Environment, pp. 1309-
1317, 1977.
[75] D.G. Kendall, “Shape Manifolds, Procrustean Metrics, and
Complex Projective Shapes,” Bull. London Math. Soc., vol. 16,
pp. 81-121, 1984.
[76] C. Kervrann, F. Davoine, P. Perez, H. Li, R. Forchheimer, and C.
Labit, “Generalized Likelihood Ratio-Based Face Detection and
Extraction of Mouth Features,” Proc. First Int’l Conf. Audio- and
Video-Based Biometric Person Authentication, pp. 27-34, 1997.
[77] S.-H. Kim, N.-K. Kim , S.C. Ahn, and H.-G. Kim, “Object Oriented
Face Detection Using Range and Color Information,” Proc. Third
Int’l Conf. Automatic Face and Gesture Recognition, pp. 76-81, 1998.
[78] M. Kirby and L. Sirovich, “Application of the Karhunen-Loe`ve
Procedure for the Characterization of Human Faces,” IEEE Trans.
Pattern Analysis and Machine Intelligence, vol. 12, no. 1, pp. 103-108,
Jan. 1990
[79] R. Kjeldsen and J. Kender, “Finding Skin in Color Images,” Proc.
Second Int’l Conf. Automatic Face and Gesture Recognition, pp. 312-
317, 1996.
[80] T. Kohonen, Self-Organization and Associative Memory. Springer
1989.
[81] C. Kotropoulos and I. Pitas, “Rule-Based Face Detection in Frontal
Views,” Proc. Int’l Conf. Acoustics, Speech and Signal Processing,
vol. 4, pp. 2537-2540, 1997.
[82] C. Kotropoulos, A. Tefas, and I. Pitas, “Frontal Face Authentication
Uing Variants of Dynamic Link Matching Based on
Mathematical Morphology,” Proc. IEEE Int’l Conf. Image Processing,
pp. 122-126, 1998.
[83] M.A. Kramer, “Nonlinear Principal Component Analysis Using
Autoassociative Neural Networks,” Am. Inst. Chemical Eng. J.,
vol. 37, no. 2, pp. 233-243, 1991.
[84] Y.H. Kwon and N. da Vitoria Lobo, “Face Detection Using
Templates,” Proc. Int’l Conf. Pattern Recognition, pp. 764-767, 1994.
[85] K. Lam and H. Yan, “Fast Algorithm for Locating Head
Boundaries,” J. Electronic Imaging, vol. 3, no. 4, pp. 351-359, 1994.
[86] A. Lanitis, C.J. Taylor, and T.F. Cootes, “An Automatic Face
Identification System Using Flexible Appearance Models,” Image
and Vision Computing, vol. 13, no. 5, pp. 393-401, 1995.
[87] T.K. Leung, M.C. Burl, and P. Perona, “Finding Faces in Cluttered
Scenes Using Random Labeled Graph Matching,” Proc. Fifth IEEE
Int’l Conf. Computer Vision, pp. 637-644, 1995.
[88] T.K. Leung, M.C. Burl, and P. Perona, “Probabilistic Affine
Invariants for Recognition,” Proc. IEEE Conf. Computer Vision and
Pattern Recognition, pp. 678-684, 1998.
[89] M.S. Lew, “Information Theoretic View-Based and Modular Face
Detection,” Proc. Second Int’l Conf. Automatic Face and Gesture
Recognition, pp. 198-203, 1996.
[90] F. Leymarie and M.D. Levine, “Tracking Deformable Objects in the
Plan Using an Active Contour Model,” IEEE Trans. Pattern Analysis
and Machine Intelligence, vol. 15, no. 6, pp. 617-634, June 1993.
[91] S.-H. Lin, S.-Y. Kung, and L.-J. Lin, “Face Recognition/Detection
by Probabilistic Decision-Based Neural Network,” IEEE Trans.
Neural Networks, vol. 8, no. 1, pp. 114-132, 1997.
[92] N. Littlestone, “Learning Quickly when Irrelevant Attributes
Abound: A New Linear-Threshold Algorithm,” Machine Learning,
vol. 2, pp. 285-318, 1988.
[93] M.M. Loe`ve, Probability Theory. Princeton , N.J. : Van Nostrand,
1955.
[94] A.C. Loui, C.N. Judice, and S. Liu, “An Image Database for
Benchmarking of Automatic Face Detection and Recognition
Algorithms,” Proc. IEEE Int’l Conf. Image Processing, pp. 146-150,
1998.
[95] K.V. Mardia and I.L. Dryden, “Shape Distributions for Landmark
Data,” Advanced Applied Probability, vol. 21, pp. 742-755, 1989.
[96] A. Martinez and R. Benavente, “The AR Face Database,” Technical
Report CVC 24, Purdue Univ. , 1998.
[97] A. Martinez and A. Kak, “PCA versus LDA,” IEEE Trans. Pattern
Analysis and Machine Intelligence, vol. 23, no. 2, pp. 228-233, Feb.
2001.
[98] S. McKenna, S. Gong, and Y. Raja, “Modelling Facial Colour and
Identity with Gaussian Mixtures,” Pattern Recognition, vol. 31,
no. 12, pp. 1883-1892, 1998.
[99] S. McKenna, Y. Raja, and S. Gong, “Tracking Colour Objects
Using Adaptive Mixture Models,” Image and Vision Computing,
vol. 17, nos. 3/4, pp. 223-229, 1998.
[100] J. Miao, B. Yin, K. Wang, L. Shen, and X. Chen, “A Hierarchical
Multiscale and Multiangle System for Human Face Detection in a
Complex Background Using Gravity-Center Template,” Pattern
Recognition, vol. 32, no. 7, pp. 1237-1248, 1999.
[101] T. Mitchell, Machine Learning. McGraw Hill, 1997.
[102] Y. Miyake, H. Saitoh, H. Yaguchi, and N. Tsukada, “Facial Pattern
Detection and Color Correction from Television Picture for
Newspaper Printing,” J. Imaging Technology, vol. 16, no. 5,
pp. 165-169, 1990.
[103] B. Moghaddam and A. Pentland, “Probabilistic Visual Learning
for Object Recognition,” IEEE Trans. Pattern Analysis and Machine
Intelligence, vol. 19, no. 7, pp. 696-710, July 1997.
[104] A.V. Nefian and M. H. H III, “Face Detection and Recognition
Using Hidden Markov Models,” Proc. IEEE Int’l Conf. Image
Processing, vol. 1, pp. 141-145, 1998.
[105] N. Oliver, A. Pentland, and F. Berard, “LAFER: Lips and Face Real
Time Tracker,” Proc. IEEE Conf. Computer Vision and Pattern
Recognition, pp. 123-129, 1997.
[106] M. Oren, C. Papageorgiou, P. Sinha, E. Osuna , and T. Poggio,
“Pedestrian Detection Using Wavelet Templates,” Proc. IEEE Conf.
Computer Vision and Pattern Recognition, pp. 193-199, 1997.
[107] E. Osuna, R. Freund, and F. Girosi, “Training Support Vector
Machines: An Application to Face Detection,” Proc. IEEE Conf.
Computer Vision and Pattern Recognition, pp. 130-136, 1997.
[108] C. Papageorgiou, M. Oren, and T. Poggio, “A General Framework
for Object Detection,” Proc. Sixth IEEE Int’l Conf. Computer Vision,
pp. 555-562, 1998.
[109] C. Papageorgiou and T. Poggio, “A Trainable System for Object
Recognition,” Int’l J. Computer Vision, vol. 38, no. 1, pp. 15-33, 2000.
[110] K. Pearson, “On Lines and Planes of Closest Fit to Systems of
Points in Space,” Philosophical Magazine, vol. 2, pp. 559-572, 1901.
[111] A. Pentland, “Looking at People,” IEEE Trans. Pattern Analysis and
Machine Intelligence, vol. 22, no. 1, pp. 107-119, Jan. 2000.
[112] A. Pentland, “Perceptual Intelligence,” Comm. ACM, vol. 43, no. 3,
pp. 35-44, 2000.
[113] A. Pentland and T. Choudhury, “Face Recognition for Smart
Environments,” IEEE Computer, pp. 50-55, 2000.
[114] A. Pentland, B. Moghaddam, and T. Starner, “View-Based and
Modular Eigenspaces for Face Recognition,” Proc. Fourth IEEE Int’l
Conf. Computer Vision, pp. 84-91, 1994.
56 IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 24, NO. 1, JANUARY 2002
[115] P.J. Phillips, H. Moon, S.A. Rizvi, and P.J. Rauss, “The FERET
Evaluation Methodology for Face-Recognition Algorithms,” IEEE
Trans. Pattern Analysis and Machine Intelligence, vol. 22, no. 10,
pp. 1090-1034, Oct. 2000.
[116] S. Pigeon and L. Vandendrope, “The M2VTS Multimodal Face
Database,” Proc. First Int’l Conf. Audio- and Video-Based Biometric
Person Authentication, 1997.
[117] M. Propp and A. Samal, “Artificial Neural Network Architectures
for Human Face Detection,” Intelligent Eng. Systems through
Artificial Neural Networks, vol. 2, 1992.
[118] F. Provost and T. Fawcett, “Robust Classification for Imprecise
Environments,” Machine Learning, vol. 42, no. 3, pp. 203-231, 2001.
[119] R.J. Qian and T.S. Huang, “Object Detection Using Hierarchical
MRF and MAP Estimation,” Proc. IEEE Conf. Computer Vision and
Pattern Recognition, pp. 186-192, 1997.
[120] R.J. Qian, M.I. Sezan, and K.E. Matthews, “A Robust Real-Time
Face Tracking Algorithm,” Proc. IEEE Int’l Conf. Image Processing,
pp. 131-135, 1998.
[121] J.R. Quinlan, C4. 5: Programs for Machine Learning. Kluwer
Academic, 1993.
[122] L.R. Rabiner and B.-H. Jung, Fundamentals of Speech Recognition.
Prentice Hall, 1993.
[123] A. Rajagopalan, K. Kumar, J. Karlekar, R. Manivasakan, M. Patil,
U. Desai, P. Poonacha, and S. Chaudhuri, “Finding Faces in
Photographs,” Proc. Sixth IEEE Int’l Conf. Computer Vision, pp. 640-
645, 1998.
[124] T. Rikert, M. Jones, and P. Viola, “A Cluster-Based Statistical
Model for Object Detection,” Proc. Seventh IEEE Int’l Conf.
Computer Vision, vol. 2, pp. 1046-1053, 1999.
[125] D. Roth, “Learning to Resolve Natural Language Ambiguities: A
Unified Approach,” Proc. 15th Nat’l Conf. Artificial Intelligence,
pp. 806-813, 1998.
[126] H. Rowley, S. Baluja, and T. Kanade, “Human Face Detection in
Visual Scenes,” Advances in Neural Information Processing Systems 8,
D.S. Touretzky, M.C. Mozer, and M.E. Hasselmo, eds., pp. 875-
881, 1996.
[127] H. Rowley, S. Baluja, and T. Kanade, “Neural Network-Based Face
Detection,” Proc. IEEE Conf. Computer Vision and Pattern Recognition,
pp. 203-208, 1996.
[128] H. Rowley, S. Baluja, and T. Kanade, “Neural Network-Based Face
Detection,” IEEE Trans. Pattern Analysis and Machine Intelligence,
vol. 20, no. 1, pp. 23-38, Jan. 1998.
[129] H. Rowley, S. Baluja, and T. Kanade, “Rotation Invariant Neural
Network-Based Face Detection,” Proc. IEEE Conf. Computer Vision
and Pattern Recognition, pp. 38-44, 1998.
[130] H.A. Rowley, “Neural Network-Based Face Detection,” PhD thesis,
Carnegie Mellon Univ., 1999.
[131] E. Saber and A.M. Tekalp, “Frontal-View Face Detection and
Facial Feature Extraction Using Color, Shape and Symmetry Based
Cost Functions,” Pattern Recognition Letters, vol. 17, no. 8, pp. 669-
680, 1998.
[132] T. Sakai, M. Nagao, and S. Fujibayashi, “Line Extraction and
Pattern Detection in a Photograph,” Pattern Recognition, vol. 1,
pp. 233-248, 1969.
[133] A. Samal and P.A. Iyengar, “Automatic Recognition and Analysis
of Human Faces and Facial Expressions: A Survey,” Pattern
Recognition, vol. 25, no. 1, pp. 65-77, 1992.
[134] A. Samal and P.A. Iyengar, “Human Face Detection Using
Silhouettes,” Int’l J. Pattern Recognition and Artificial Intelligence,
vol. 9, no. 6, pp. 845-867, 1995.
[135] F. Samaria and S. Young, “HMM Based Architecture for Face
Identification,” Image and Vision Computing, vol. 12, pp. 537-583,
1994.
[136] F.S. Samaria, “Face Recognition Using Hidden Markov Models,”
PhD thesis, Univ. of Cambridge , 1994.
[137] S. Satoh, Y. Nakamura, and T. Kanade, “Name-It: Naming and
Detecting Faces in News Videos,” IEEE Multimedia, vol. 6, no. 1,
pp. 22-35, 1999.
[138] D. Saxe and R. Foulds, “Toward Robust Skin Identification in
Video Images,” Proc. Second Int’l Conf. Automatic Face and Gesture
Recognition, pp. 379-384, 1996.
[139] B. Scassellati, “Eye Finding via Face Detection for a Foevated, Active
Vision System,” Proc. 15th Nat’l Conf. Artificial Intelligence, 1998.
[140] H. Schneiderman and T. Kanade, “Probabilistic Modeling of Local
Appearance and Spatial Relationships for Object Recognition,”
Proc. IEEE Conf. Computer Vision and Pattern Recognition, pp. 45-51,
1998.
[141] H. Schneiderman and T. Kanade, “A Statistical Method for 3D
Object Detection Applied to Faces and Cars,” Proc. IEEE Conf.
Computer Vision and Pattern Recognition, vol. 1, pp. 746-751, 2000.
[142] J.A. Shufelt, “Performance Evaluation and Analysis of Monocular
Building Extraction,” IEEE Trans. Pattern Analysis and Machine
Intelligence, vol. 19, no. 4, pp. 311-326, Apr. 1997.
[143] P. Sinha, “Object Recognition via Image Invariants: A Case
Study,” Investigative Ophthalmology and Visual Science, vol. 35,
no. 4, pp. 1735-1740, 1994.
[144] P. Sinha, “Processing and Recognizing 3D Forms,” PhD thesis,
Massachusetts Inst. of Technology, 1995.
[145] S.A. Sirohey, “Human Face Segmentation and Identification,”
Technical Report CS-TR-3176, Univ. of Maryland , 1993.
[146] J. Sobottka and I. Pitas, “Segmentation and Tracking of Faces in
Color Images,” Proc. Second Int’l Conf. Automatic Face and Gesture
Recognition, pp. 236-241, 1996.
[147] K. Sobottka and I. Pitas, “Face Localization and Feature Extraction
Based on Shape and Color Information,” Proc. IEEE Int’l Conf.
Image Processing, pp. 483-486, 1996.
[148] F. Soulie, E. Viennet, and B. Lamy, “Multi-Modular Neural
Network Architectures: Pattern Recognition Applications in
Optical Character Recognition and Human Face Recognition,”
Int’l J. Pattern Recognition and Artificial Intelligence, vol. 7, no. 4,
pp. 721-755, 1993.
[149] T. Starner and A. Pentland, “Real-Time ASL Recognition from
Video Using HMM’s,” Technical Report 375, Media Lab,
Massachusetts Inst. of Technology, 1996.
[150] Y. Sumi and Y. Ohta, “Detection of Face Orientation and Facial
Components Using Distributed Appearance Modeling,” Proc. First
Int’l Workshop Automatic Face and Gesture Recognition, pp. 254-259,
1995.
[151] Q.B. Sun, W.M. Huang, and J.K. Wu, “Face Detection Based on
Color and Local Symmetry Information,” Proc. Third Int’l Conf.
Automatic Face and Gesture Recognition, pp. 130-135, 1998.
[152] K.-K. Sung, “Learning and Example Selection for Object and
Pattern Detection,” PhD thesis, Massachusetts Inst. of Technology,
1996.
[153] K.-K. Sung and T. Poggio, “Example-Based Learning for View-
Based Human Face Detection,” Technical Report AI Memo 1521,
Massachusetts Inst. of Technology AI Lab, 1994.
[154] K.-K. Sung and T. Poggio, “Example-Based Learning for View-
Based Human Face Detection,” IEEE Trans. Pattern Analysis and
Machine Intelligence, vol. 20, no. 1, pp. 39-51, Jan. 1998.
[155] M.J. Swain and D.H. Ballard, “Color Indexing,” Int’l J. Computer
Vision, vol. 7, no. 1, pp. 11-32, 1991.
[156] D.L. Swets and J. Weng, “Using Discriminant Eigenfeatures for
Image Retrieval,” IEEE Trans. Pattern Analysis and Machine
Intelligence, vol. 18, no. 8, pp. 891-896, Aug. 1996.
[157] B. Takacs and H. Wechsler, “Face Location Using a Dynamic
Model of Retinal Feature Extraction,” Proc. First Int’l Workshop
Automatic Face and Gesture Recognition, pp. 243-247, 1995.
[158] A. Tefas, C. Kotropoulos, and I. Pitas, “Variants of Dynamic Link
Architecture Based on Mathematical Morphology for Frontal Face
Authentication,” Proc. IEEE Conf. Computer Vision and Pattern
Recognition, pp. 814-819, 1998.
[159] J.C. Terrillon, M. David, and S. Akamatsu, “Automatic Detection
of Human Faces in Natural Scene Images by Use of a Skin Color
Model and Invariant Moments,” Proc. Third Int’l Conf. Automatic
Face and Gesture Recognition, pp. 112-117, 1998.
[160] J.C. Terrillon, M. David, and S. Akamatsu, “Detection of Human
Faces in Complex Scene Images by Use of a Skin Color Model and
Invariant Fourier-Mellin Moments,” Proc. Int’l Conf. Pattern
Recognition, pp. 1350-1355, 1998.
[161] A. Tsukamoto, C.-W. Lee, and S. Tsuji, “Detection and Tracking of
Human Face with Synthesized Templates,” Proc. First Asian Conf.
Computer Vision, pp. 183-186, 1993.
[162] A. Tsukamoto, C.-W. Lee, and S. Tsuji, “Detection and Pose
Estimation of Human Face with Synthesized Image Models,” Proc.
Int’l Conf. Pattern Recognition, pp. 754-757, 1994.
[163] M. Turk and A. Pentland, “Eigenfaces for Recognition,” J. Cognitive
Neuroscience, vol. 3, no. 1, pp. 71-86, 1991.
[164] R. Vaillant, C. Monrocq, and Y. Le Cun, “An Original Approach
for the Localisation of Objects in Images,” IEE Proc. Vision, Image
and Signal Processing, vol. 141, pp. 245-250, 1994.
[165] M. Venkatraman and V. Govindaraju, “Zero Crossings of a Non-
Orthogonal Wavelet Transform for Object Location,” Proc. IEEE
Int’l Conf. Image Processing, vol. 3, pp. 57-60, 1995.
YANG ET AL.: DETECTING FACES IN IMAGES: A SURVEY 57
[166] A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, and K. Lang,
“Phoneme Recognition Using Time-Delay Neural Networks,”
IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 37, no. 3,
pp. 328-339, May 1989.
[167] H.Wangand S.-F. Chang,“AHighly Efficient System for Automatic
Face Region Detection in MPEG Video,” IEEE Trans. Circuits and
Systems for Video Technology, vol. 7, no. 4, pp. 615-628, 1997.
[168] H. Wu, Q. Chen, and M. Yachida, “Face Detection from Color
Images Using a Fuzzy Pattern Matching Method,” IEEE Trans.
Pattern Analysis and Machine Intelligence, vol. 21, no. 6, pp. 557-563,
June 1999.
[169] H. Wu, T. Yokoyama, D. Pramadihanto, and M. Yachida, “Face
and Facial Feature Extraction from Color Image,” Proc. Second Int’l
Conf. Automatic Face and Gesture Recognition, pp. 345-350, 1996.
[170] G. Yang and T. S. Huang, “Human Face Detection in Complex
Background,” Pattern Recognition, vol. 27, no. 1, pp. 53-63, 1994.
[171] J. Yang, R. Stiefelhagen, U. Meier, and A. Waibel, “Visual Tracking
for Multimodal Human Computer Interaction,” Proc. ACM Human
Factors in Computing Systems Conf. (CHI 98), pp. 140-147, 1998.
[172] J. Yang and A. Waibel, “A Real-Time Face Tracker,” Proc. Third
Workshop Applications of Computer Vision, pp. 142-147, 1996.
[173] M.-H. Yang and N. Ahuja , “Detecting Human Faces in Color
Images,” Proc. IEEE Int’l Conf. Image Processing, vol. 1, pp. 127-130,
1998.
[174] M.-H. Yang and N. Ahuja , “Gaussian Mixture Model for Human
Skin Color and Its Application in Image and Video Databases,”
Proc. SPIE: Storage and Retrieval for Image and Video Databases VII,
vol. 3656, pp. 458-466, 1999.
[175] M.-H. Yang, N. Ahuja, and D. Kriegman, “Mixtures of Linear
Subspaces for Face Detection,” Proc. Fourth Int’l Conf. Automatic
Face and Gesture Recognition, pp. 70-76, 2000.
[176] M.-H. Yang, D. Roth, and N. Ahuja, “A SNoW-Based Face
Detector,” Advances in Neural Information Processing Systems 12,
S.A. Solla, T. K. Leen, and K.-R. Mu¨ ller, eds., pp. 855-861, MIT
Press, 2000.
[177] K.C. Yow and R. Cipolla, “A Probabilistic Framework for
Perceptual Grouping of Features for Human Face Detection,”
Proc. Second Int’l Conf. Automatic Face and Gesture Recognition,
pp. 16-21, 1996.
[178] K.C. Yow and R. Cipolla, “Feature-Based Human Face Detection,”
Image and Vision Computing, vol. 15, no. 9, pp. 713-735, 1997.
[179] K.C. Yow and R. Cipolla, “Enhancing Human Face Detection
Using Motion and Active Contours,” Proc. Third Asian Conf.
Computer Vision, pp. 515-522, 1998.
[180] A. Yuille, P. Hallinan, and D. Cohen, “Feature Extraction from
Faces Using Deformable Templates,” Int’l J. Computer Vision, vol. 8,
no. 2, pp. 99-111, 1992.
[181] W. Zhao, R. Chellappa, and A. Krishnaswamy, “Discriminant
Analysis of Principal Components for Face Recognition,” Proc.
Third Int’l Conf. Automatic Face and Gesture Recognition, pp. 336-341,
1998.