图1显示了人脸识别系统所包含的各个模块,其中,图像采集模块用于采集包含人脸的图像;人脸检测跟踪模块用于确定视频中人脸的位置和大小,并确定同一个人在帧间的对应关系;而特征点定位模块用于定位眼睛、嘴巴等脸部特征点的位置;图像质量评估模块,用于从采集的同一个人的多张人脸图像中,根据人脸姿态和光照条件选择最适合识别的一张或者几张人脸进行人脸识别/认证;人脸特征提取模块用于根据眼睛位置将人脸进行标准化,得到设定大小的脸部区域,并提取用于识别的人脸特征;人脸认证/识别模块用于判定当前人脸特征是否为库中人脸特征;活体认证模块,其作用是识别当前是真人还是照片、视频或者模型,从而避免仿冒造成的损失,在银行门禁,社保远程识别等应用中必不可少。
人脸识别系统框图
人脸检测跟踪是人脸识别系统的前端,是其它模块处理的基础。相对其它模块,人脸检测跟踪模块的技术相对成熟,基本能够达到实际应用的需求。
早期曾经出现过诸如支持向量机,神经网络等经典的人脸检测技术,但是直到Viola[1]提出了基于Haar-like特征和Discrete AdaBoost的层次型人脸检测技术后,人脸检测才真正成为一个从性能到速度都基本满足实际应用需求的技术。该论文中采用的积分图像快速计算矩形区域亮度和的方法以及层次型的分类器结构成为计算机视觉领域的经典方法。此后,基于其方法,出现过很多改进方法。清华大学艾海州老师的硕士武勃[2]提出的基于Haar-like特征和Real AdaBoost的巢型的人脸检测技术,是后续改进方法中的佼佼者,该方法采用查找表(LUT,Look-Up Table)方式,使得每个弱特征的表示能力更强,此外,巢型(Nest-structured)结构,更好的利用了前层信息,克服了层次型(Cascade)丢失前层信息的缺陷。中科院计算所高文老师处的Yan shengye[3]在CVPR 2008发表的基于局部编码二值模式特征(LAB,Locally Assembled Binary)和巢型Real AdaBoost的方法,其采用Schneiderman[4]提出的Feature-Centric的方式来使用特征,克服了现有框架中在判定相邻位置是否人脸时,多次计算同一特征,从而造成冗余运算的缺陷。该方法中提出的LAB特征,融合了LBP特征中的二值编码模式和Haar-like特征中的矩形区域亮度和特征,对于区域亮度模式很强的人脸模式表示能力很强,而且,易于定点化。此外,Feature-Centric的方法在构建多姿态人脸分类器时,由于特征公用,处理速度得到大幅提高。此外,该论文中还采用了该作者提出的[5]Matrix-Structural Learning的训练方法,该方法采用类似反样本Bootstrap的方法对正样本进行Bootstrap,从而能够挑选难分类的正样本进行训练,也使得大规模的使用正样本成为可能,克服了计算机内存的限制。多姿态人脸检测技术是人脸检测技术领域的一个研究难点和热点。为了减少类内距离,基本的思路是将多姿态人脸进一步划分为子姿态,但是划分的方式以及后续处理策略又千差万别。基于金字塔结构的方法,基于树形结构的方法,基于姿态估计器的方法,以及黄畅[6]等提出的基于Vector Boosting的方法。该方法的思路也是将多个姿态划分为子姿态,然后,分别为各个姿态训练子分类器,但是,各子分类器公用特征,从而减少所采用的特征数目,提高了处理速度。
人脸跟踪是物体跟踪技术的一个子领域,既具有物体跟踪技术的一般特点,也具有自己独有的特点。经典的方法中,既包括基于卡尔曼滤波的预测方法,也有在实际应用中取得不错效果的基于Mean Shift、粒子滤波(Particles Filter)的方法,而基于直方图(Histogram),自相关矩阵(Covariance Matrix)等特征匹配的方法也是一个方向。近年来,跟踪被看作是物体和背景区域的一个两类分类问题。基于这一思想,基于统计学习的方法被应用在跟踪中。其中,基于增量子空间的方法,Ensemble Tracking的方法, On-line Boosting的方法被引入跟踪,开阔了跟踪方法的思路。
检测和跟踪是相辅相成的两个问题,检测可以用来作为跟踪的初始条件,也可以用来验证跟踪结果的可信程度,而跟踪可以用来作为限定检测的搜索范围,也能用来确定检测目标在帧间的对应关系。在实际应用中,为了达到速度和效果的综合性能,二者需要紧密结合,相辅相成。而最近,出现了很多将物体检测和物体跟踪结合到一个框架下处理的方法,使得二者更加紧密的结合起来。其中,李源[7]等提出的基于粒子滤波和在线学习的方法是此类方法的代表。
人脸检测虽然取得了很多进步,但在实际应用中,对于诸如监控场景等低帧率、相互遮挡、光照条件恶劣的高清图像下的超大人流量的人脸检测跟踪问题,为了达到速度、检测率和误检率的完美统一,依然需要综合利用包括运动信息、肤色信息以及摄像机成像模型等各种限制信息,并将检测和跟踪结合起来。
人脸特征点定位,是人脸识别中十分重要的问题,因为其精度直接影响人脸的对准程度,从而直接影响人脸识别的精度。简单的脸部特征点定位问题,可以仅仅包含左眼和右眼中心点的定位,或者进一步包含嘴边中心点的定位。而复杂的脸部特征点定位则可能包括眼睛,嘴边,鼻子器官周围边缘轮廓点和中心点,以及脸颊边缘轮廓特征点的定位。采用何种特征点定义方法,取决于人脸识别问题的应用条件,以及选择的人脸识别算法。
特征点定位的方法可以简单划分为基于启发式规则的方法,基于概率模型的方法以及基于分类器模型的方法。基于启发式规则的方法,一般是找到特征点区域图像在亮度,边缘,形状,纹理等满足的特性,根据事先定义的规则找到符合特性符合这些规则的方法。而基于概率模型的方法,则是统计特征点区域特征符合的概率模型,通过最大化后验概率来找到特征点位置,其中基于AAM和ASM的方法是这类方法的代表。所采用的特征可以采用图像的亮度,边缘等特征,也可以采用特征点之间的形状分布来限定。而基于分类器模型的方法,则是把每个特征点所在区域和其它脸部区域看作是一个两类分类问题,采用支持向量机,AdaBoost等分类器算法,训练得到一个能够区分特征点区域的模型。然后,在图像上寻找各个尺度各个位置的通过分类器的特征点区域。
基于启发式规则的方法,扩展性比较差,而且,参数和规则十分难调,而基于概率模型的方法,效率一般要低些,而且,采用的模型往往具有一定的局限性,而基于分类器模型的方法,参数为自动训练获得,而且,鲁棒性更高,但是,却无法得到比较稳定精确的中心点位置。因此,更好的方法是将三者结合。首先采用基于分类器模型的方法寻找特征点候选位置,然后采用特征点中心的图像特性进行分析,进而采用概率模型进行约束,在底层图像信息和全局相对位置约束下,找到一个最优解。文献[8]、文献[9]均是近期该类方法的代表。
对于视频输入的人脸识别问题而言,如何将视频中的多张人脸信息进行融合,对于提高识别率是十分重要的。一个简单的思路是从多幅人脸中找到和人脸库中条件最接近的人脸用来做识别。因此,可以对输入图像的姿态条件、光照条件、分辨率条件等进行分析,找到和人脸库中条件最接近的人脸用于识别,这样做,一方面一定程度克服了姿态和光照对于识别率的影响,另外,由于避免将所有采集的人脸都用于识别,提高了处理速度。
但是图像质量评估是一个十分困难的问题,这是一个停留在工程应用和探讨阶段的问题,并没有明确的理论和方法。
对于银行等重要场所的门禁和远程身份认证的应用而言,活体检测是一项重要的功能。活体检测的思路主要有几类,一类是从传感器的特性,摄像机的双目成像原理等找到真实人脸和照片、模型等的区别,比如采用温感传感器探测真实人脸表面的温度分布以区别于屏幕,照片和模型,或者采用双目摄像头得到人脸表面的深度信息以区别于照片和屏幕。一类是利用人的局部运动,比如人眼区域,嘴巴区域的局部运动,而无论是照片还是模型,都无法发生局部运动。而检测局部运动的方法,一种可以检测帧间人脸各区域的运动情况,此外,可以采用眼睛、嘴巴附近的表观模型检测眼睛的开闭状态或嘴巴的开闭状态。
基于脸部特征点的位置可以将人脸归一化为大小相同,特征点位置对齐的脸部区域。进一步,可以在亮度特征的基础上提取鉴别能力更强的特征,并送给分类器进行人脸识别。人脸识别领域最悠久最经典的方法莫过于基于特征脸(即PCA分解)的方法了,而Gabor特征无疑是人脸识别领域最常用和最成功的特征了,基于弹性模板匹配[12]的方法是其中最经典的方法之一。近年来,LBP特征在人脸分析、纹理分析等领域取得了广泛应用。一些实验表明LBP特征在人脸识别和表情识别上的优异性能。中科院自动化所的张文超[10]等人将LBP编码和Gabor特征进行结合,提出了LGBP特征,一些实验表明,该特征的性能比Gabor和LBP特征更加优异。
但是,上述特征都存在一个特征维数高,构造分类器复杂的问题。为了解决这个问题,大家形成共识的一个思路是对提取的特征进行PCA降维或者采用AdaBoost进行特征选择,得到分类能力强的部分特征,而得到分类特征之后,则可以采用基于MQDF,Intersect直方图距离,余弦角度距离等距离进行特征匹配。此外,也可以采用LDA来对各子区域的距离进行加权,得到最终的分类器。
上述基于距离的方法更加适合于基于查询方式的人脸辨识(Face Identification)问题。而对于确定当前人是否声明人的人脸认证(Face Verification)问题,如何设定一个合适的阈值是一个十分困难的问题。Moghaddama[11]等提出的基于类内类间的方式将人脸识别这一多类问题转换为一个类内和类间的两类问题,从而为人脸认证问题提供了解决思路。可以将基于上述特征的类内类间距离作为特征,采用支持向量机,AdaBoost等分类器训练方法训练得到最终的分类器。
光照是人脸识别中十分困难的问题,为了解决实际应用中的光照问题,中科院自动化所的李子青老师(Stan Li)等[13]采用近红外摄像头作为采集设备,通过滤除环境中的光源,以及设置主动光源来解决光照问题。其采用的思路是将以LBP为特征,通过类内类间转换为一个两类问题,最终采用AdaBoost进行特征选择和构造分类器。这种方法,适合于定点化,速度很快,适合硬件实现,是十分适合门禁考勤嵌入式设备中的方法。
此外,人脸识别领域中,还存在着很多研究方向,基于子空间分析的方法是其中一个重要的方向,很多研究者提出了很多方法,但是,个人认为这些方法更多适用于理论研究,在实际使用中的方法,还是以上文所述方法为主线。
可见,人脸识别是一个涉及到方方面面知识的一个整体系统,其中的任何一个方面都影响着系统的最终性能。
[1] P. Viola and M. Jones. Rapid object detection using a boosted cascade of simple features. CVPR 2001.
[2] Bo WU, Haizhou AI, Chang HUANG, Shihong LAO, Fast Rotation Invariant Multi-View Face Detection Based on Real Adaboost, In Proc. the 6th IEEE Conf. on Automatic Face and Gesture Recognition (FG 2004), Seoul, Korea, May 17-19, 2004.
[3] Shengye Yan, Shiguang Shan, Xilin Chen, Wen Gao, "Locally Assembled Binary (LAB) feature with feature-centric cascade for fast and accurate face detection," cvpr, pp.1-7, 2008 IEEE Conference on Computer Vision and Pattern Recognition, 2008.
[4] Henry Schneiderman, "Feature-Centric Evaluation for Efficient Cascaded Object Detection," cvpr, vol. 2, pp.29-36, 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'04) - Volume 2, 2004.
[5] J. Chen, R. Wang, S. Yan, S. Shan, X. Chen, and W. GAO. How to train a Classifier Based on the Huge Face Database? IEEE International Workshop on AMFG2005, LNCS 3723, pp. 84-95.
[6] Vector Boosting for Rotation Invariant Multi-View Face Detection Export, Chang Huang,Haizhou Ai, Yuan Li, Shihong Lao, Computer Vision, IEEE International Conference on, Vol. 1 (2005), pp. 446-453.
[7] Tracking in Low Frame Rate Video: A Cascade Particle Filter with Discriminative Observers of Different Lifespans, Yuan LI, Haizhou AI, Takayoshi YAMASHITA, Shihong LAO, Masato KAWADE, CVPR 2007. |
|
[8] Precise detailed detection of faces and facial features, Liya Ding, Martinez, A.M, CVPR, 2008. IEEE Conference on, 23-28 June 2008.
[9] Enhanced Pictorial Structures for Precise Eye Localization under Uncontrolled Conditions,Xiaoyang Tan, Fengyi Song, Zhi-Hua Zhou, Songcan Chen, CVPR 2009.
[10] 基于局部Gabor变化直方图序列的人脸描述与识别,张文超,山世光,张洪明,陈杰,陈熙霖,高文,软件学报 2006 17(12).
[11] Bayesian face recognition, Baback Moghaddama, Tony Jebarab and Alex Pentlandb, MITSUBISHI ELECTRIC RESEARCH LABORATORIES, TR2000-42, February 2002.
[12] Laurenz Wiskott, Jean-Marc Fellous, Norbert Krüger, Christoph von der Malsburg, "Face Recognition by Elastic Bunch Graph Matching," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 19, no. 7, pp. 775-779, July, 1997.
[13] Illumination Invariant Face Recognition Using Near-Infrared Images, Stan Z. Li, RuFeng Chu, ShengCai Liao, Lun Zhang, April 2007 (vol. 29 no. 4), pp. 627-639, TPAMI.