1. 国内外研究人脸表情识别的公司与产品介绍
现在,国内外都有人脸识别的相关产品,尤其在美国,已经能够通过机器人识别人脸表情,还能推断人的年龄等。而在国内,以杭州热知科技为代表的主要是生产人脸识别和表情识别的嵌入式设备。
国外:
1.美国汉森机器人公司
爱因斯坦机器人Einstein
图1 美国汉森机器人公司的爱因斯坦机器人
Einstein是美国汉森机器人公司的机器人专家大卫·汉森设计的一款类人机器人。它不仅能识别喜怒哀乐、恐惧、迷茫等数以百计的面部表情,推断人的年龄和性别,还能做出相应表情回应,模拟点头、摇头、扬眉等简单动作。
2.美国麻省理工学院
美国MIT 的Breazeal开发的婴儿机器人Kismet ,能判定微笑、皱眉和扬眉等表情,并以高兴、吃惊、厌恶、沮丧等表情给予回应。
图2 MIT 的婴儿机器人Kismet
3.日本东京理科大学
日本东京理科大学Kobayashi 等开发的AHI 机器人能够识别并再现人的6 种基本表情。更高版本的仿人机器人SAYA 已达到实用水平。
图3东京理科大学表情机器人SAYA
国内:
1.杭州热知科技
图4 杭州热知科技人脸表情识别示意图
热知科技嵌入式人脸识别、表情识别引擎,旨在赋予嵌入式识别设备、人脸识别的功能和表情识别能力,人脸识别嵌入式的意义在于使得人脸识别功能前置化、小型化、移动化,方便各种应用场合的需求。比如智能移动设备、智慧摄像头、智慧分析盒等。依赖于热知科技深厚的算法积累和强大的工程优化能力,嵌入式人脸识别引擎能够在嵌入式设备上实现与PC无差的人脸识别率,以及实时的识别性能人脸识别在公共安全领域和商业领域,都具有非常强的应用需求很好的发展前景。人脸识别在公共安全领域和商业领域,都具有非常强的应用需求很好的发展前景。
热知科技表情识别技术可广泛地使用于数码照相、游戏、广告等多媒体行业。结合热知科技表情识别技术,应用开发者可轻易地开发如侦测被摄者笑脸启动自动拍摄、游戏玩家的自动表情更换、多媒体广告的用户观看效果分析等高级应用。
热知科技可提供适用于PC及ARM、DSP、FPGA等嵌入式平台的表情识别引擎,帮助客户轻松创建各平台上的创意应用。
2.哈尔滨工业大学
哈尔滨工业大学的吴伟国教授开发的具有表情识别与再现机能的仿人头像机器人H&F ROBOT-Ⅱ。它通过CCD获得表情图像,用基于知识的方法提取特征,基于模糊神经网络识别6 种基本表情,成功率超过80%。
图5 哈尔滨工业大学表情机器人H&F ROBOT-Ⅱ
公司以及高校研发的人脸表情识别的产品及特点比较:
表 1国内外两家人脸表情识别产品的对比
类别 |
国外 |
国内 |
生产厂家 |
美国汉森机器人公司 |
杭州热知科技 |
主要产品 |
爱因斯坦机器人 |
PC及嵌入式平台表情识别设备 |
产品主要功能 |
识别人脸表情,对人的表情做出回应 |
数码照相,游戏玩家,广告等表情自动识别并做出相应操作 |
表情识别特点 |
识别软件系统基于对100万多张面部表情图像进行分析识别而得出的,并对诸如:忧伤、生气、恐惧、快乐和困惑等表情进行识别,并且还可以模拟人类点头等简单的动作。 |
主要应用于广告和游戏等多媒体行业,如侦测被摄者笑脸启动自动拍摄、游戏玩家的自动表情更换、多媒体广告的用户观看效果分析等高级应用,主要是嵌入式设备表情识别平台 |
产品优点 |
可以实现人类与机器人之间的交互 |
提供各种平台如ARM,PC,DSP等的表情识别引擎 |
产品缺点 |
价格为5万英镑,成本较高 |
仅仅是软件系统,用于识别人脸表情,功能简单 |
<
表 2 国内外高校研发机器人人脸识别产品对比
类别 |
国外 |
国内 |
|
高校名称 |
美国麻省理工学院 |
日本东京理科大学 |
哈尔滨工业大学 |
机器人名称 |
机器人Kismet |
机器人AHI |
机器人H&F ROBOT-Ⅱ |
主要功能 |
够识别并再现人 的6 种基本表情 |
能判定微笑、皱眉和扬眉等表情,并以高兴、吃惊、厌恶、沮丧等表情给予回应 |
它通过CCD获得表情图像,用基 于知识的方法提取特征,基于模糊神经网络识别6 种基本表情 |
人脸表情识别特点 |
主要是仿人表情识别 |
婴儿机器人人脸表情识别 |
识别6 种基本表情,成功率超过 80% |
人脸表情识别采用的方法 |
_____ |
_____ |
用基于知识的方法提取特征,基于模糊神经网络识别 |
2. 人脸表情识别算法调研
2.1人脸表情的描述
人脸表情主要是由1971年心理学家Ekman与Friesen的研究最早提出的人类有六种主要情感。每种情感以唯一的表情来反映人的一种独特的心理活动。这六种情感被称为基本情感,由愤怒(anger)、高兴(happiness)、悲伤 (sadness)、惊讶(surprise)、厌恶(disgust)和恐惧(fear)组成。
人脸面部表情运动的描述方法---人脸运动编码系统FACS (Facial Action Coding System),根据面部肌肉的类型和运动特征定义了基本形变单元AU(Action Unit),人脸面部的各种表情最终能分解对应到各个AU上来,分析表情特征信息,就是分析面部AU的变化情况。Ekman和Roseberg后来提出的FACSAID系统将每种表情与肌肉的运动对应起来,只需观察肌肉的运动即可判断出表情类别。
2.2人脸表情识别的流程描述
人脸表情自动识别系统可分为人脸图像获取、特征提取和人脸情感分类三个核心环节。考虑到实用性,人脸表情识别系统的首要目标是的全程自动化、实时性、高准确率和良好的扩展性。由于各个关键环节有自己的特点,将人脸表情识别技术的最新进展按数据处理流程进行归纳:
图:人脸表情识别流程
1在人脸图像获取部分,需要建立一个基于PC或者独立的图像获取平台,要求能够清晰获取人脸图像,并且能够通过人脸跟踪反馈控制云台的运动;
2人脸检测算法要能够处理复杂背景下人脸实时检测并且对脸部遮盖、年龄、表情、种族等带来的影响具有鲁棒性,同时还要解决光照不均以及人脸旋转的问题主要方法有:
人脸识别术按照算法原理基本上可以归结为三大类,即:基于人脸几何形状的方法、基于子空间的方法和基于分类器模型的方法。
(1)基于人脸几何形状的方法是研究最早,也是最直观的方法。算法原理是根据人的眼睛、鼻子、嘴巴、下巴等器官的形状、大小和结构上的各种差异性来区分不同人的人脸。但由于人脸光照、姿态等影响,器官定位的准确性要求很高, Roder对几何特征提取的精确性进行了实验性的研究,结果不容乐观。Jain提出可变形模板法匹配法,来降低对齐不准确带来的匹配误差。
(2)基于子空间的方法最流行的算法之一, 包括特征脸(Eigenface),线性判别分析(LDA),流形学习(manifold learning)以及一些基于核(kernel)的扩展。此类方法反映了隐含在人脸样本集合内部的信息和人脸的结构关系。这种基于整体脸的识别不仅保留了人脸部件之间的拓扑关系,而且也保留了各部件本身的信息。
(3)基于分类器模型的方法主要包括神经网络(Neural Networks),支持向量基(SVM),隐马尔可夫模型(HMM),混合高斯(GMM)等。此类方法在人脸识别上的应用比起前述几类方法来有一定的优势,因为对人脸识别的许多规律或规则进行显性的描述是相当困难的,而基于统计学习的模型方法则可以通过学习的过程获得对这些规律和规则的隐性表达,它的适应性更强,一般也比较容易实现。
3人脸特征提取算法需要对人脸的器官特征、纹理区域和预定义的特征点进行定位和提取。由于人脸图像具有信息量大和模式复杂等性质,图像降维和去相关变换如主分量分析(PCA)、独立成分分析(ICA)、小波分析、对称变换、光流分析等方法得到了广泛应用;
4表情情感分类算法要能够准确地对人脸表情进行精确分类,学者们使用了Bayes分类理论、神经网络、隐马尔可夫模型(Hidden Markov Model,HMM)、SVM等分类方法。此外,通过对常用的JAFFE Cohn-Kanade等人脸表情数据库的观察可以看出,人脸表情数据库需要进一步的完善。
其中人脸表情识别部分主要过程包括表情库建立和表情识别两大部分,具体如下:
1、表情库的建立:目前,研究中比较常用的表情库主要有:美国CMU机器人研究所和心理学系共同建立的Cohn-Kanade AU-Coded Facial Expression Image Database(简称CKACFEID)人脸表情数据库;日本ATR建立的日本女性表情数据库(JAFFE),它是研究亚洲人表情的重要测试库。
2、表情识别:
(1)图像获取:通过摄像头等图像捕捉工具获取静态图像或动态图像序列。
(2)图像预处理:图像的大小和灰度的归一化,头部姿态的矫正,图像分割等。
目的:改善图像质量,消除噪声,统一图像灰度值及尺寸,为后序特征提取和分类识别打好基础
主要工作人脸表情识别子区域的分割以及表情图像的归一化处理(尺度归一和灰度归一)
(3)特征提取:将点阵转化成更高级别图像表述—如形状、运动、颜色、纹理、空间结构等, 在尽可能保证稳定性和识别率的前提下,对庞大的图像数据进行降维处理。
(4)分类判别:包括设计和分类决策
2.3国内外研究现状
国外,美国、日本、英国、德国、荷兰、法国、印度、新加坡都有专门的研究组进行这方面的研究。其中MIT、CMU、Maryland 大学、Standford 大学、日本城蹊大学、东京大学、ATR 研究所的贡献尤为突出。Pantic 等通过提取正面和侧面的人脸轮廓特征点,获得 32个肌肉运动单元的信息,识别6 类表情。Mase等使用光流法来跟踪运动单元,采用K近邻方法进行分类,对4 类表情的识别率为80% 。Shan等用局部二值模式描述人脸特征,结合SVM在低分辨率下识别面部表情,获得了较好的效果。
国内 清华大学、哈尔滨工业大学、中科院、中国科技大学、南京理工大学、北方交通大学 。如哈尔滨工业大学的金辉、高文基于动态图像序列中的光流信息,通过隐马尔可夫模型识别任意时序长度的、复杂的混合表情图像序列,对7 种表情的总体识别率达到96.9% 。北京科技大学的杨国亮,王志良等在标准光流法的基础上提出了非刚体光流算法,构建 HMM 与BP神经网络混合分类器。对CMU库中愤怒、厌恶、悲伤、惊奇四种表情的识别率超过 80% 。
现阶段人脸表情识别的方法主要分为基于几何特征的识别方法、基于整体的识别方法和基于模型的识别方法,具体分类如下:
人脸表情识别的主要方法分类
(1)基于几何特征的识别方法:它主要是对人脸表情的显著特征,如眼睛、鼻子、眉毛、嘴等的位置变化进行定位、测量,确定其大小、距离、形状及相互比例等特征,进行表情识别。这种方法很大程度上减少了输入的数据,但是用有限的特征点来代表人脸图像,一些重要的表情识别和分类信息就会丢失。实验研究表明几何特征提取的精确性结果有待提高。现在对于人脸图像处理技术,基于整体的正面灰度信息的方法越来越引起重视。
(2)基于整体的识别方法:与基于几何特征的识别方法相比,基于整体的识别方法主要强调尽可能多的保留原始人脸表情图像中的信息,并允许分类器发现表情图像中相关的特征,通过对整幅人脸表情图像进行变换,获取特征来进行识别。这种全局表情特征未必有明确的含义,但在某种意义上是易于分类的。不过基于全局的人脸表情识别方法具有强相关性及高冗余度。
基于整体的识别方法中最有代表性,应用最广泛的就是主成分分析方法。主成分分析就是要找到一个正交的维数空间来说明数据中变化的主要方向。它是最小方差准则条件下基于图像的最优描述方法。这一方法大大将降低了输入空间的维数。主成分分析现在已成功的用于人脸识别和人脸表情识别。
另一种基于整体的识别方法是运用神经网络。神经网络模型由简单的、并行处理的互连处理单元构成,每个神经元与其它神经元相连并从与其相连的神经元接受输入,将输入加权后再送给其它的神经元,各神经元之间的连接强度通过连接权值来描述。
(3)基于模型的识别方法:它主要是建立精确的物理模型,根据解剖学知识确定关键特征并通过比较这些特征的变化来识别人脸表情。也就是说把人脸表情识别问题转化成可变形曲面的弹性匹配问题。在一个基于模型的系统中,物理模型的精确度决定了表情分类的准确性。但是在一个确定的人脸物理模型中很难精确的说明肌肉收缩后引起皮肤运动的方向,从而也就很难准确的对表情进行分类。很多研究工作都是通过构建物理模型,再使用神经网络的方法对表情序列进行识别和分类。
(4)其他方法:用Gabor小波进完成面部表情信息的压缩编码的方法;用隐马尔可夫模型(HMM)方法等。
在具体的表情识别方法上,方向主要有三个:整体识别法和局部识别法、形变提取法和运动提取法、几何特征法和容貌特征法。具体分类如下图所示:
下面对人脸表情识别方法进行具体介绍与分析。
(1)整体法与局部法
整体识别法中,无论是从脸部的变形出发还是从脸部的运动出发,都是将表情人脸作为一个整体来分析,找出各种表情下的图像差别。其中典型的方法有:基于特征脸的主分量分析(Principal Component Analysis,PCA)法、独立分量分析法(Independent Component Analysis,ICA)、Fisher线性判别法(Fisher’sLinear Discriminants,FLD)、Fisher运动法(Fisher Actions)、隐马尔科夫模型法(HideMarkov Model,HMM)和聚类分析法。
局部识别法就是将人脸的各个部位在识别时分开,也就是说各个部位的重要性是不一样。比如说在表情识别时,最典型的部位就是眼睛、嘴、眉毛等,这些地方的不同运动表示了丰富的面部表情。相比较而言,鼻子的运动就较少,这样在识别时就可以尽量少的对鼻子进行分析,能加快速度和提高准确性。
(2)形变法与运动法
形变提取法是根据人脸在表达各种表情时的各个部位的变形情况来识别的,主要的方法有:主分量分析法(PCA)、Gabor 小波、运动模板法(Active Shape Model,ASM)和点分布模型(Point Distribution Model,PDM)法。
运动法是跟踪人脸在表达各种特定的表情时一些特定的特征部位的运动来识别的。典型的识别方法有:光流法(Optical Flow)和MPEG-4 中的脸部运动参数法(Face Animation Parameter FAP)
(3)几何法和容貌特征法
几何特征法是根据人的面部的各个部分的形状和位置(包括嘴、眼睛、眉毛、鼻子)来提取特征矢量,这个特征矢量来代表人脸的几何特征。根据这个特征矢量的不同就可以识别不同的表情。重要的方法是:基于运动单元(AU)的主分量分析法。
在容貌特征法中,主要是将整体人脸或者是局部人脸通过图像的滤波,以得到特征矢量。常用的滤波器是Gabor 小波。
当然,这三个发展方向不是严格独立,它们只是从不同角度来进行特征提取,都只是提供了一种分析表情的思路,相互联系,相互影响。有很多种方法是介于两者甚至是三者之间。
现阶段具体的人脸表情识别方法
人脸表情识别方法 |
方法简单描述 |
优点 |
缺点 |
稀疏表示 |
用稀疏表示法对样本库进行描述,建立超完备子空间,重构并观察残差,最后通过稀疏系数进行分类 |
操作简单,可以做前期的基础实验,有一定的鲁棒性 |
描述对象必须要是稀疏的,降低了实际应用价值,对于样本要求也比较高 |
Gabor变换 |
通过定义不同的核频率、带宽和方向对图像进行多分辨率分析,能有效提取不同方向不同细节程度的图像特征并相对稳定, 常与ANN 或SVM 分类器结合使用,提高表情识别的准确率 |
在频域和空间域都有较好的分辨能力,有明显的方向选择性和频率选择特性 |
作为低层次的特征,不易直接用于匹配和识别,识别准确率也不是很高,样本较少的条件下识别准确率也较低 |
主成分分析和线性判别 |
尽可能多的保留原始人脸表情图像中的信息,并允许分类器发现表情图像中相关特征,通过对整幅人脸表情图像进行变换,获取特征进行识别 |
具有较好的可重建性 缺点:可分性较差 |
外来因素的干扰(光照、角度、复杂背景等)将导致识别率下降 |
支持向量机 |
作为分类器做人脸识别,在表情识别时一般和Gabor滤波器一起使用作为分类器 |
在小样本下的识别效果较为理想,可以做实时性的表情识别 |
样本较大时,计算量和存储量都很大,识别器的学习也很复杂 |
光流法对运动特征提取 |
是将运动图像函数f (x,y,t)作为基本函数,根据图像强度守恒原理建立光流约束方程,通过求解约束方程,计算运动参数 |
反映了人脸表情变化的实际规律,受外界环境的影响较小,比如光照条件变化时,识别率不会有太大变化 |
识别模型和算法较复杂,计算量大 |
图像匹配法 |
通过使用弹性图匹配的方法将标记图和输入人脸图像进行匹配 |
允许人脸旋转,和能够实时处理 |
会受到其他部位特征的影响,如眼镜,头发等 |
隐马尔可夫模型 |
由观察的面部表情序列及模型去计算观察面部表情序列的概率,选用最佳准则来决定状态的转移;据观察的面部表情序列计算给定的模型参数 |
识别准确率较高,平均在97%以上 |
对前期的面部表情序列模型要求较高,这对表情识别算法的准确率影响也较大 |
其他方法如:矩阵分解法 |
以NMF为例,分解后的基图像矩阵和系数矩阵中的元素均是非负的。将表征人脸各部分的基图像进行线性组合从而表征整个表情图像。 |
需要的样本较少,在无遮挡时识别准确率90%以上 |
受外界环境影响较大,识别准确率在嘴巴受到遮挡时,准确率只有80%左右 |
2.4人脸表情识别的难点和关键点和难点
(1)表情识别的关键在于表情特征提取的准确性和有效性上。目前所用到的识别特征主要有:灰度特征、运动特征和频率特征三种。灰度特征是从表情图像的灰度值上来处理,利用不同表情有不同灰度值来得到识别的依据。这种情况下要求图像对光照、角度等因素要进行充分的预处理,使获得的灰度值具有归一性。运动特征利用了不同表情情况下人脸的主要表情点的运动信息来进行识别。频域特征主要是利用了表情图像在不同的频率分解下的差别,速度快是其显著特点。
(2)人脸表情识别受到人脸面部姿态及环境光照变化的影响较大,鲁棒性不强。而在现阶段只对基本的6-7种表情识别准确率比较高,其余表情的识别仍存在较大问题,而且人脸表情特征的提取与分类方法比较复杂,各种方法参差不齐,因此在选择具体的特征提取与分类的方法很难选择最优的方法。
主要参考文献:
[1]Essa Irfan A. Coding, Analysis, Interpretation, andrecognition of Facial Expressions [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997-07,19(7): 757-763.
[2]Calder Andrew J, Burton A Mike, Miller Paul, Young Andrew W. APrincipal Component Analysis of FacialExpressions [J].Vision research,2001, 41: 1179-1208.
[3]Havran C, etal. Independent Component Analysis for face authentication [A].KES’2002proceedings-knowledge-based intelligent Information and Engineering Systems[C].Crema (Italy),2002-09. 1207-1211
[4]Bartlett Marian Stewart, Lades H Martin, SejnowskiTerrence J. Independent componentrepresentations for face recognition Proceedings of the SPIE Symposium onElectronic Imaging [A].Science and Technology; conference on Human Visionand Electronic Imaging Ⅲ [C].California:San Jose, 1998-01.
[5]Lyons Michael J, BudynekJulien, Aukamatsu Shigeru. Automatic Classification of Single Facial Images[J].IEEE TRANSACTIONS ON PAMI., 1999-12, 21(12).
[6]张家树 陈辉等.人脸表情自动识别技术研究进展[J]西南交通大学学报 第40卷 第3期 2005-06.
[7]陆慧聪.面部表情识别系统中表情特征提取与识别算法的研究. 东南大学硕士学位论文. 2006
[8]Caifeng Shan, Shaoqang Gong, P. W. McOwan.Recognizing Facial Expressions at Low Resolution. IEEE Conference on AdvancedVideo and Signal Based Surveillance, 2005:330~335.
[9] M. Pantic, L. Rothkrantz. Facial Action Recognitionfor Fa cial Expression Analysis from Static Face Images. IEEE Transactions onSystems, Man, and Cybernetics, Part B. 2004,34(3):1449~1461.
[10] 梁磊.基于机器人视觉的面部表情识别技术研究.哈尔滨工业大学工学硕士学位论文.2009