姓名:吴庆恺 学号:16020610024
转载自:http://www.cnki.net/ 有删节
【嵌牛导读】:现有的性别与年龄检测系统一般都需要大量的运算,难以有效的集成到嵌入式系统中。而且目前公开的数据集中没有大型东亚人脸数据库,使用公开的西方人数据库训练出的性别与年龄模型在检测东亚人脸数据集时效果并不理想。为此,本文在互联网上收集并整理了3 万多张不同性别与年龄段的东亚人脸数据集用于训练新的神经网络;为了在不降低网络分类精度的前提下提高嵌入式端性别与年龄分类速度,本文训练了一个经过改进的第一代DeepID 网络。新模型可以有效的运行在嵌入式端并且在检测含东亚人脸的数据集时检测精度有明显的提高。
【嵌牛鼻子】:关键词:深度学习; 卷积神经网络;模式识别;性别识别;年龄识别;嵌入式系统
【嵌牛提问】:拟合问题的处理仍然无法处理?
【嵌牛正文】:基于人脸图像的性别识别的研究最早开始于20 世纪80
年代[3]。最早做性别识别研究的学者是Golomb[4]等人,1991
年他们训练了一个两层的全连接网络做人脸图像的性别识
别。他们实验结果的平均误差约为8.1%;Cottrell[5]等人最
早结合主成分分析(Principal Component Analysis, PCA)与神
经网络这两种方法完成了人脸的性别分类和表情识别这两
项工作。Moghaddam 和Yang[6]最早研究使用支持向量机
(Support Vector Machine, SVM)进行性别识别。Hayashi[7]通
过研究人脸皱纹纹理和肤色对人脸图像进行性别识别。
Shakhnarovich 等将Viola 和Jones[8]提出的基于类Haar 基特
征的Adaboost 方法应用于性别识别问题,对人脸图像的性
别识别准确率达到了78%。Rowley[9]等人在2009 年结合像
素比较操作和Adaboost 分类器进行性别识别,他们的识别
率超过了93%,比使用相同输入的SVM 分类准确率要高。
2015 年Gil Levi [10]等人利用深度卷积神经网络在受限的数
据集上获得了最高88.2 的性别识别精度。
1.2 人脸年龄检测
人脸年龄估计的研究在近年来吸引了研究者的兴趣。
在年龄研究方面,有以下三个关于年龄的概念:实际年龄
是指从目标出生时到被观测时的真实年龄;表观年龄是指
目标从外表上所展现出的年龄信息;估计年龄是指计算机
对人脸图像识别的年龄。本文主要研究识别人的表观年龄。
对于人脸年龄估计,可采用分类方法或回归方法。
分类方法是指将年龄划分为多个年龄段,在对目标进
行年龄识别之后根据识别结果将其归入最有可能的年龄段
之内,是一个大致的估计。
自动年龄估计算法是由Lanitis[11]等人于2004 年首次提
出的,该算法在AAM 的基础上将年龄估计问题视作为一个
多分类问题,利用人工神经网络(Artificial Neutral Network,
ANN)实现年龄估计与分类,同时他们还比较了ANN 与最
近邻分类器和二次函数分类器等分类器的算法效果。Guo
等人[12]利用SVM 对YGA 人脸数据库进行了年龄的多分类,
取得了较好的实验结果。
回归方法使用拟合的方式实现人脸的年龄估计。因为
年龄是连续的正整数序列,所以可以通过回归函数对年龄
进行拟合[13]。Lanitis 等人[14]最早提出了年龄估计的回归方
法。Guo 等人[15] 利用支持向量回归(Support Vector
Regression, SVR)的方法进行了年龄估计,取得了较好的效
果。2015 年Gil Levi [10]等人利用深度卷积神经网络在受限
的数据集上获得了平均43.4%的年龄识别精度。
从上述年龄估计的研究现状可以发现人脸图像的年龄
估计可以看作是分类问题或者回归问题,一般按照系统的
需求选用不同的估计方法。因为年龄估计跨度范围广、样
本不足、人脸年龄特征易受多种外界因素影响(如光照、
遮挡)等问题,导致各种方法都在不同程度上存在一些不
足[13]。因此,在目前的研究成果下,要使用当前的技术与
方法准确的估计一张人脸的年龄,依旧是极富挑战性的任
务。
2 经过改进的 DeepID 网络
因为浅层的神经网络在一定的条件下可以学到与深层
的神经网络一样的能力[16],所以我们考虑训练一个相对较
浅的卷积神经网络来实现性别与年龄检测。
DeepID[17]是由香港中文大学的团队设计的,其团队使
用DeepID 进行人脸部特征提取,其网络在人脸验证领域取
得了很好的效果,而本文所研究的是人脸性别与年龄识别,
因此DeepID 网络适用于本文的研究。DeepID 网络中包含
了4 个卷积层去分层的提取图片特征,4 个卷积层之后跟随
了一个全连接层和softmax 输出层去表示输入的种类,其构如图1 所示,卷积网络输入39*31 的图像,经过卷积图像的特征维度不断减少,最终在第4 层卷积层生成了160维的特征向量,这个数字是固定的。最后一层soft-max 层中的n 代表网络需要预测的物体的种类个数。
因为本文的网络最终要用在嵌入式端,所以本文在尽
量保持检测精度的前提下对第一代DeepID 网络进行了改
进,本文去掉了DeepID 第二层卷积层并且修改了第三及第
四层卷积层的输出数量为40,并将输入层大小设为48*48,
全连接层5 的输出改为80,得到了一个更小深度的网络。
对于改进过的 DeepID 网络,其整个网络包含3 个卷积
层,3 个池化层和2 个全连接层。其中卷积层的卷积核大小
为3 × 3,步长为1,填充为1。激活函数都选择使用ReLU
函数,以减轻梯度消失问题,使训练网络的收敛速度加快。
池化层的选用的池化方式为最大池化[18],池化区域为2,步
长为2,与CaffeNet 中的池化层相比,可以减少特征信息
的损失。经过全连接层之后将上一层的特征拉成一组向量,
最后将其输入Softmax 层中。此网络同样加入了Dropout
层以降低过拟合的问题[19],概率值为0.5。