对人脸的基本属性 实现 实时性分析。其基本属性包括:68个关键点,表情,年龄(年龄段),性别,种族。
2.可用于研究的数据集
关键点检测可用数据库:BioID(1000张 20个关键点),LFPW:(1132 张,29个关键点),AFLW(25993张,21个关键点),COFW:(1852张,每个人脸标定29个关键点),ICCV13/MVFW :(2500张,68个关键点),OCFW: (3837张,68个关键点),300-W :(600张,68个关键点)
年龄:FG-NET:(82个人,共1002张),MORPH:(13673个人,共55608张),Adience : (2284个人,共26580张(年龄、性别识别))IMDBWIKI :(20284个人,共523051张(年龄、性别识别)),CACD2000 :(2000个人,共163446张),LAP
性别:Adience, IMDBWIKI
表情:JAFFE,CK+, MMI
种族:暂未找到
可选大概实现方案:
1.深度学习:
a. 每个属性分别使用:CNN + SoftMaxLoss /EuclideanLoss 。
b. 一个CNN进行特征提取,使用多loss进行不同属性分析。
2.传统方法:
a. HOG/LBP/Gabor +降维(PCA/Adaboost) +SVM/SVR 处理分类/回归 问题
各属性论文的优秀实现方案
一,人脸特征点定位:
1. face alignment at 3000fps 2014, 运行较快(3,000 fps on a desktop or 300 fps on a mobile phone) ,但是存在侧脸准确度低,模型文件太大的问题[受特征点个数影响较大],在 300-W (68 landmarks)数据集 Common Subset 误差值为4.95 。
2. Deep Convolutional Network Cascade 2013采用三级级联的DCNN网络 准确度较高,该方法在LFPW数据集上取得当时(2013年)最好的定位结果。但是预测时间较长,120毫秒/张 , 在LFW上5个关键点误差值为1.3左右。
3. Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment 2014 一种由粗到精的自编码器网络,CFAN可以实时地完成人脸人脸对齐(在I7的台式机上达到23毫秒/张)
二,人脸表情识别
1.Convolutional Neural Networks for Facial Expression Recognition 2016 结构简单:[Conv-(SBN)-ReLU-(Dropout)-(Max-pool)]M - [Affine-(BN)-ReLU-(Dropout)]N - Affine - Softmax . 准确率为65% dataset provided by Kaggle website, which consists of about 37,000 wellstructured 48 × 48 pixel gray-scale images of faces.
2.Facial Expression Recognition via Learning Deep Sparse Autoencoders 2017准确率在95.7% on CK+ dataset.
三,性别,年龄,种族识别
1.Age and Gender Classification using Convolutional Neural Networks 2015 这篇文章没有什么新算法,只有调参,改变网络层数、卷积核大小,只要懂得Alexnet,实现这篇文献的算法,会比较容易。Gender accuracy 在 86.8% ,Age 预测精准的值 准确率在50.7% ,预测年龄段 准确率在 84.7%, 使用的数据集是Adience 。
2.基于LBP,亮度、形状直方图的多尺度特征融合的性别识别(Gender Classification Based on Fusion of Different Spatial Scale Features Selected by Mutual Information From Histogram of LBP, Intensity, and Shape)(2013年,IEEE检索)在性别识别中融入信息论概念, 对PCA、LDA等经典识别算法进行简化,在简化过程中根据熵、互信息量等指标提出一套特征选择理论,很有创新性和跨学科性。The best gender classification accuracy based on pixel intensities was 87.85% for a 36 × 36 pixel image. Results using shape features yielded 91.59% correct classification for 128 × 128 size, and 93.46% using LBP texture features, also on 128 × 128 image sizes. Fusing the three types of features (intensity, shape and texture) yielded the best score of 95.33% on the FERET database.
4.基于形状特征和神经网络的现实人脸性别分类(Gender recognition on real world faces based on shape representation and neural network)(2014年)先对人脸进行对齐操作,用人工神经网络的方法进行分类,在LFW数据库的非正向人脸样本部分做实验,识别率达到89.3%.
目前考虑实现方案
一,人脸特征点定位:
方案1:考虑运行时间 可以复现 face alignment at 3000fps 2014 ,目前有源代码实现起来比较快。
方案2:考虑精确度 可以复现 Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment 并根据实际情况做相应改进。
二,表情识别:
方案1:使用 HOG 特征 + SVM进行表情分类,目前实验在CK+ 数据集表现良好。
方案2:复现 论文 Facial Expression Recognition via Learning Deep Sparse Autoencoders ,但是其训练过程比较复杂,可以考虑先复现 Convolutional Neural Networks for Facial Expression Recognition 2016 看实际效果。
三,性别,年龄,种族:
方案1: 使用特征融合的方法,基于 LBP,亮度,形状直方图及多尺度融合,然后使用SVM进行分类,实现方案可基于该论文(Gender Classification Based on Fusion of Different Spatial Scale Features Selected by Mutual Information From Histogram of LBP, Intensity, and Shape)做调整。
方案2:基于 Age and Gender Classification using Convolutional Neural Networks 2015论文 进行改进,实现三种属性的判别。