一文读懂人脸识别技术

2019-08-27 17:06:26

本文内容涵盖人脸识别发展历程、市场研究、核心技术、商业应用以及产业落地、个人看法等干货研究。注意,本文干货满满,约有2万7千字,强烈建议大家先收藏后学习!

01 发展史

1. 人脸识别的理解

人脸识别(Face Recognition)是一种依据人的面部特征(如统计或几何特征等),自动进行身份识别的一种生物识别技术,又称为面像识别、人像识别、相貌识别、面孔识别、面部识别等。通常我们所说的人脸识别是基于光学人脸图像的身份识别与验证的简称。

人脸识别利用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸图像进行一系列的相关应用操作。技术上包括图像采集、特征定位、身份的确认和查找等等。简单来说,就是从照片中提取人脸中的特征,比如眉毛高度、嘴角等等,再通过特征的对比输出结果。

2. 人脸识别的发展简史

第一阶段(1950s—1980s)初级阶段

人脸识别被当作一个一般性的模式识别问题,主流技术基于人脸的几何结构特征。这集中体现在人们对于剪影(Profile)的研究上,人们对面部剪影曲线的结构特征提取与分析方面进行了大量研究。人工神经网络也一度曾经被研究人员用于人脸识别问题中。较早从事 AFR 研究的研究人员除了布莱索(Bledsoe)外还有戈登斯泰因(Goldstein)、哈蒙(Harmon)以及金出武雄(Kanade Takeo)等。总体而言,这一阶段是人脸识别研究的初级阶段,非常重要的成果不是很多,也基本没有获得实际应用。

第二阶段(1990s)高潮阶段

这一阶段尽管时间相对短暂,但人脸识别却发展迅速,不但出现了很多经典的方法,例如Eigen Face, Fisher Face和弹性图匹配;并出现了若干商业化运作的人脸识别系统,比如最为著名的 Visionics(现为 Identix)的 FaceIt 系统。 从技术方案上看, 2D人脸图像线性子空间判别分析、统计表观模型、统计模式识别方法是这一阶段内的主流技术。

第三阶段(1990s末~现在)

人脸识别的研究不断深入,研究者开始关注面向真实条件的人脸识别问题,主要包括以下四个方面的研究:1)提出不同的人脸空间模型,包括以线性判别分析为代表的线性建模方法,以Kernel方法为代表的非线性建模方法和基于3D信息的3D人脸识别方法。2)深入分析和研究影响人脸识别的因素,包括光照不变人脸识别、姿态不变人脸识别和表情不变人脸识别等。3)利用新的特征表示,包括局部描述子(Gabor Face, LBP Face等)和深度学习方法。4)利用新的数据源,例如基于视频的人脸识别和基于素描、近红外图像的人脸识别。

02 市场研究

1. 全球人脸识别市场

前瞻根据人脸识别行业发展现状;到2016年,全球生物识别市场规模在127.13亿美元左右,其中人脸识别规模约26.53亿美元,占比在20%左右。预计到2021年,全球人脸识别市场预计将达到63.7亿美元,按预计期间的复合增长率达17.83%。

一文读懂人脸识别技术_第1张图片

 

2. 中国人脸识别市场

前瞻根据人脸识别行业发展现状,估算我国人脸识别市场规模约占全球市场的10%左右。2010-2016年,我国人脸识别市场规模逐年增长,年均复合增长率达27%。2016年,我国人脸识别行业市场规模约为17.25亿元,同比增长27.97%,增速较上年上升4.64个百分点。

一文读懂人脸识别技术_第2张图片

 

3. 国内主要玩家分布

3.1 中国部分人脸识别公司(排名不分先后)

一文读懂人脸识别技术_第3张图片

 

一文读懂人脸识别技术_第4张图片

 

3.2 四大独角兽介绍及对比细分领域

(1)旷视科技:

2014年,获阿里巴巴旗下蚂蚁金服投资,主攻金融和监控两大行业,有子公司旷视智安;团队成员除了几名来自清华校友外,还有来自美国哥伦比亚大学、英国牛津大学和美国南加州大学的科研及开发人员,截至目前员工仅有100余人。

在金融、安防、零售领域分别开始了商业化探索成功发育出Face++Financial,Face++Security,Face++BI等垂直人脸验证解决方案,主要将人脸识别应用在互联网产品上,自己做研发,在美图秀秀、淘宝等互联网领域得到良好的应用,在金融领域的市场一直占据沙发前排阵营;2016年获得上亿元C轮融资,最后选择通过计算机视觉技术与NLP技术的结合,制造出能“识别万物”的智能机器人,提供硬件模组,里面内置他们家的算法。目前正在准备启动IPO的步伐,VIE架构让他们得以绕过A股,不用达到连续三年盈利的标准实现快速上市。

(2)商汤科技:

SenseTime(商汤科技),获IDG资本投资,主攻金融、移动互联网、安防监控三大行业;由香港中文大学的汤晓欧创建,“商汤”中的汤指的就是汤晓欧本人,汤晓鸥及其研究团队所开发的DeepID算法率先将深度学习应用到人脸识别上,在技术指标上实现了新的突破。主要案例是围绕各个美化软件与直播平台制作人脸贴图,重点强化了人脸识别的关键点检测及跟踪技术。

团队有300多号,也从当初toC转向toB领域;成立于2014年的商汤科技选择另辟蹊径,选择用“四大美女”这个话题让人们躁动起来,到最后四大美女走了三个;商汤的网络都是自己设计的,这样对于深度学习网络的掌控力就会更强,提供SaaS服务的同时,可以通过SaaS把背后的数据拿到,再进行更多更细致的分析再次提升服务质量。

(3)云从科技

2015年4月,周曦拿到战略投资成立云从科技,同年针对金融和银行业推出了40多种解决方案,包含从算法、产品、销售、售后的全产业链打造,针对农行、建行、交行、中行及多地公安提供定制化服务。团队成员除了来自中科大的校友外,还来自中国科学院各大研究所、UIUC、IBM、NEC、MicroSoft等全球顶尖学府及研究机构。

截止2016年11月,成立一年半,研发团队扩展为200余名,核心产品是人脸识别系统及IBIS集成生物识别平台,还具备3D模型、红外活体、静默活体等技术,可根据场景需求自由调节。选择连接硬件、开发与技术,属于全产业链模式,因为人脸识别系统多数情况下需要深度定制,只有这样,才能在客户提出需求的情况下迅速反馈,修改,统一用户体验。

(4)依图科技:

2012 年九月,朱珑与他的好友林晨曦在创立依图科技,这家从事人工智能创新性研究的创企从图像识别入手,首先与全国省市级公安系统合作,对车辆品牌、型号等进行精准识别,随后扩展到人像识别,通过静态人像比对技术和动态人像比对技术,协助公安系统进行人员身份核查、追逃、监控、关系挖掘等。

发展近6年,依图科技的产品已经应用到全国二十多个省市地区的安防领域,安防领域之外,依图也进入智慧城市领域和健康医疗领域,它要协助政府构建"城市大脑",也希望将医疗领域的巨大知识鸿沟缩小,改善医患体验。

(5)细分领域对比表

一文读懂人脸识别技术_第5张图片

 

(6)主要客户对比

一文读懂人脸识别技术_第6张图片

 

4. 商业模式

4.1 人脸识别商业模式设计步骤

一文读懂人脸识别技术_第7张图片

 

4.2 人脸识别盈利模式

一文读懂人脸识别技术_第8张图片

 

03 人脸识别的流程及主要技术

1. 人脸识别系统组成

一文读懂人脸识别技术_第9张图片

 

2. 人脸识别的一般流程

2.1 人脸采集

(1)简介

不同的人脸图像通过摄像镜头采集得到,比如静态图像、动态图像、不同的位置、不同表情等,当采集对象在设备的拍摄范围内时,采集设备会自动搜索并拍摄人脸图像。

(2)人脸采集的主要影响因素

  • 图像大小:人脸图像过小会影响识别效果,人脸图像过大会影响识别速度。非专业人脸识别摄像头常见规定的最小识别人脸像素为60*60或100*100以上。在规定的图像大小内,算法更容易提升准确率和召回率。图像大小反映在实际应用场景就是人脸离摄像头的距离。
  • 图像分辨率:越低的图像分辨率越难识别。图像大小综合图像分辨率,直接影响摄像头识别距离。现4K摄像头看清人脸的最远距离是10米,7K摄像头是20米。
  • 光照环境:过曝或过暗的光照环境都会影响人脸识别效果。可以从摄像头自带的功能补光或滤光平衡光照影响,也可以利用算法模型优化图像光线。
  • 模糊程度:实际场景主要着力解决运动模糊,人脸相对于摄像头的移动经常会产生运动模糊。部分摄像头有抗模糊的功能,而在成本有限的情况下,考虑通过算法模型优化此问题。
  • 遮挡程度:五官无遮挡、脸部边缘清晰的图像为最佳。而在实际场景中,很多人脸都会被帽子、眼镜、口罩等遮挡物遮挡,这部分数据需要根据算法要求决定是否留用训练。
  • 采集角度:人脸相对于摄像头角度为正脸最佳。但实际场景中往往很难抓拍正脸。因此算法模型需训练包含左右侧人脸、上下侧人脸的数据。工业施工上摄像头安置的角度,需满足人脸与摄像头构成的角度在算法识别范围内的要求。

2.2 人脸检测

(1)简介

在图像中准确标定出人脸的位置和大小,并把其中有用的信息挑出来(如直方图特征、颜色特征、模板特征、结构特征及Haar特征等),然后利用信息来达到人脸检测的目的。

(2)人脸关键点检测(人脸对齐)

自动估计人脸图片上脸部特征点的坐标。

(3)主流方法

基于检测出的特征采用Adaboost学习算法(一种用来分类的方法,它把一些比较弱的分类方法合在一起,组合出新的很强的分类方法)挑选出一些最能代表人脸的矩形特征(弱分类器),按照加权投票的方式将弱分类器构造为一个强分类器,再将训练得到的若干强分类器串联组成一个级联结构的层叠分类器,有效地提高分类器的检测速度。

最近人脸检测算法模型的流派包括三类及其之间的组合:viola-jones框架(性能一般速度尚可,适合移动端、嵌入式上使用),dpm(速度较慢),cnn(性能不错)。

2.3 人脸图像预处理

(1)简介

基于人脸检测结果,对图像进行处理并最终服务于特征提取的过程。

(2)原因

系统获取的原始图像由于受到各种条件的限制和随机干扰,往往不能直接使用,必须在图像处理的早期阶段对它进行灰度矫正、噪声过滤等图像预处理。

(3)主要预处理过程

人脸对准(得到人脸位置端正的图像),人脸图像的光线补偿,灰度变换、直方图均衡化、归一化(取得尺寸一致,灰度取值范围相同的标准化人脸图像),几何校正、中值滤波(图片的平滑操作以消除噪声)以及锐化等。

2.4 人脸特征提取

(1)简介

人脸识别系统可使用的特征通常分为视觉特征、像素统计特征、人脸图像变换系数特征、人脸图像代数特征等。人脸特征提取就是针对人脸的某些特征进行的,也称人脸表征,它是对人脸进行特征建模的过程

(2)人脸特征提取的方法

  1. 基于知识的表征方法(主要包括基于几何特征法和模板匹配法):根据人脸器官的形状描述以及它们之间的距离特性来获得有助于人脸分类的特征数据,其特征分量通常包括特征点间的欧氏距离、曲率、和角度等。人脸由眼睛、鼻子、嘴、下巴等局部构成,对这些局部和他们之间结构关系的几何描述,可作为识别人脸的重要特征,这些特征被称为几何特征。
  2. 基于代数特征或统计学习的表征方法:基于代数特征方法的基本思想是将人脸在空域内的高维描述转化为频域或者其他空间内的低维描述,其表征方法为线性投影表征方法和非线性投影表征方法。基于线性投影的方法主要有主成分分析法或称K-L变化、独立成分分析法和Fisher线性判别分析法。非线性特征提取方法有两个重要的分支:基于核的特征提取技术和以流形学习为主导的特征提取技术。

2.5 匹配与识别

提取的人脸特征值数据与数据库中存贮的特征模板进行搜索匹配,通过设定一个阈值,将相似度与这一阈值进行比较,来对人脸的身份信息进行判断。

3. 人脸识别的主要方法

3.1 Eigen Face(特征脸)

MIT实验室的特克(Turk)和潘特(Pentland)提出的“特征脸”方法无疑是这一时期内最负盛名的 人脸识别方法。其后的很多人脸识别技术都或多或少与特征脸有关系,现在特征脸已经与归一化的协相关量(Normalized Correlation)方法一道成为人脸识别的性能测试基准算法。

人脸识别特征脸算法文档:

https://blog.csdn.net/zizi7/article/details/52757300

3.2 Fisher Face(渔夫脸)

贝尔胡米尔(Belhumeur)等提出的 Fisherface 人脸识别方法是这一时期的另一重要成果。该方法首先采用主成分分析(PCA)对图像表观特征进行降维。在此基础上,采用线性判别分析(LDA)的方法 变换降维后的主成分以期获得“尽量大的类间散度和尽量小的类内散度”。该方法目前仍然是主流的人脸识别方法之一,产生了很多不同的变种,比如零空间法、子空间判别模型、增强判别模型、直接的LDA 判别方法以及近期的一些基于核学习的改进策略。

Fisher Face算法文档:

https://blog.csdn.net/zizi7/article/details/52999432

3.3 EGM(弹性图匹配)

其基本思想是用一个属性图来描述人脸:属性图的顶点代表面部关键特征点,其属性为相应特征点处 的多分辨率、多方向局部特征——Gabor变换12特征,称为Jet;边的属性则为不同特征点之间的几何 关系。对任意输入人脸图像,弹性图匹配通过一种优化搜索策略来定位预先定义的若干面部关键特征点,同时提取它们的Jet特征,得到输入图像的属性图。最后通过计算其与已知人脸属性图的相似度来完成识别过程。该方法的优点是既保留了面部的全局结构特征,也对人脸的关键局部特征进行了建模。

弹性图匹配算法文档:

https://blog.csdn.net/real_myth/article/details/44828219

3.4 基于几何特征的方法

几何特征可以是眼、鼻、嘴等的形状和它们之间的几何关系(如相互之间的距离)。这些算法识别速 度快,需要的内存小,但识别率较低。

3.5 基于神经网络的方法

神经网络的输入可以是降低分辨率的人脸图像、局部区域的自相关函数、局部纹理的二阶矩等。这类方法同样需要较多的样本进行训练,而在许多应用中,样本数量是很有限的。

3.6 基于线段Hausdorff 距离(LHD) 的方法

心理学的研究表明,人类在识别轮廓图(比如漫画)的速度和准确度上丝毫不比识别灰度图差。LHD是基于从人脸灰度图像中提取出来的线段图的,它定义的是两个线段集之间的距离,与众不同的是,LHD并不建立不同线段集之间线段的一一对应关系,因此它更能适应线段图之间的微小变化。实验结果表明,LHD在不同光照条件下和不同姿态情况下都有非常出色的表现,但是它在大表情的情况下识别效果不好。

3.7 基于支持向量机(SVM) 的方法

近年来,支持向量机是统计模式识别领域的一个新的热点,它试图使得学习机在经验风险和泛化能力上达到一种妥协,从而提高学习机的性能。支持向量机主要解决的是一个2分类问题,它的基本思想是试图把一个低维的线性不可分的问题转化成一个高维的线性可分的问题。通常的实验结果表明SVM有较好的识别率,但是它需要大量的训练样本(每类300个),这在实际应用中往往是不现实的。而且支持向量机训练时间长,方法实现复杂,该函数的取法没有统一的理论。

4. 技术发展方向

  1. 结合三维信息:二维和三维信息融合使特征更加鲁棒
  2. 多特征融合:单一特征难以应对复杂的光照和姿态变化
  3. 大规模人脸比对:面向海量数据的人脸比对与搜索
  4. 深度学习:在大数据条件下充分发挥深度神经网络强大的学习能力

5. 人脸识别数据库

  1. Yale人脸数据库
  2. ORL人脸数据库
  3. CMU PIE人脸数据库
  4. FERET人脸数据库
  5. MIT数据库
  6. BANCA人脸数据库
  7. CAS-PEAL人脸数据库
  8. JAFE表情数据库
  9. Cohn-Kanade表情数据库
  10. MMI表情数据库

6. 技术指标

6.1 人脸检测中的关键指标

例子:在摄像头某张抓拍图像中,一共有100张人脸,算法检测出80张人脸,其中75张是真实人脸,5 张是把路标误识为人脸。

  • 检测率:识别正确的人脸/图中所有的人脸。检测率越高,代表检测模型效果越好。
  • 误检率:识别错误的人脸/识别出来的人脸。误检率越低,代表检测模型效果越好。
  • 漏检率:未识别出来的人脸/图中所有的人脸。漏检率越低,代表检测模型效果越好。
  • 速度:从采集图像完成到人脸检测完成的时间。时间约短,检测模型效果越好。

 

在这个实际案例中:检测率=75/100误检率=5/80漏检率=(100-75)/100

6.2 人脸识别中的关键指标

1000张样本图片里,共600张正样本。相似度为0.9的图片一共100张,其中正样本为99张。虽然0.9阈值的正确率很高,为99/100;但是0.9阈值正确输出的数量确很少,只有99/600。这样很容易发生漏识的情况。

  • 检测率:识别正确的人脸/图中所有的人脸。检测率越高,代表检测模型效果越好。
  • 误检率:识别错误的人脸/识别出来的人脸。误检率越低,代表检测模型效果越好。
  • 漏检率:未识别出来的人脸/图中所有的人脸。漏检率越低,代表检测模型效果越好。
  • 速度:从采集图像完成到人脸检测完成的时间。时间约短,检测模型效果越好。

 

在这个实际案例中:检测率=75/100 误检率=5/80 漏检率=(100-75)/100

6.3 人脸识别中的关键指标

1000张样本图片里,共600张正样本。相似度为0.9的图片一共100张,其中正样本为99张。虽然0.9阈值的正确率很高,为99/100;但是0.9阈值正确输出的数量确很少,只有99/600。这样很容易发生漏识的情况。

  • 精确率(precision):识别为正确的样本数/识别出来的样本数=99/100

 

  • 召回率(recall):识别为正确的样本数/所有样本中正确的数=99/600

 

  • 错误接受率/认假率/误识率(FARFalse Accept Rate)

 

  1. 定义:指将身份不同的两张照片,判别为相同身份,越低越好
  2. FAR = NFA / NIRA
  3. 式中 NIRA 代表的是类间测试次数,既不同类别间的测试次数,打比方如果有1000个识别 模型,有1000个人要识别,而且每人只提供一个待识别的素材,那 NIRA=1000*(1000-1) 。NFA是错误接受次数。
  4. FAR决定了系统的安全性,FRR决定了系统的易用程度,在实际中,FAR对应的风险远远高于FRR,因此,生物识别系统中,会将FAR设置为一个非常低的范围,如万分之一甚至百万分之一,在FAR固定的条件下,FRR低于5%,这样的系统才有实用价值。

 

  • 错误拒绝率/拒真率/拒识率(FRR False Reject Rate)

 

  1. 定义:指将身份相同的两张照片,判别为不同身份,越低越好
  2. FRR = NFR / NGRA
  3. 上式中NFR是类内测试次数,既同类别内的测试次数,打比方如果有1000个识别模型, 有1000个人要识别, 而且每人只提供一个待识别的素 材,那 NIRA=1000,如果每个人提供N张图片,那么 NIRA=N*1000 。NFR是错误拒绝次数。

需要在精确率(识别为正确的样本数/识别出来的样本数)和召回率(识别为正确的样本数/所有样本中正确的数)中达到某一个平衡。

测试同事需要关注特定领域内每个类别的指标,比如针对识别人脸的表情,里面有喜怒哀乐等分类,每一个分类对应的指标都是不一样的。测试同事需要将测试的结果完善地反馈给算法同事,算法同事才能找准模型效果欠缺的原因。同时,测试同事将本次模型的指标结果反馈给产品,由产品评估是否满足上线需求。

(1)测试环境说明

例如:

  • CPU:Intel(R) Core(TM) i7-4790 CPU @ 3.60 GHz
  • 内存:8GB
  • 系统:Ubuntu 14.04 x86_64/Windows 7 SP1 64bit
  • GCC版本:4.8.2

 

(2)测试集和测试需求说明

比如“图片包含人脸大小应超过96*96像素,测试结果达到XX程度满足需求。

  • 经典人脸身份识别测试集LFW,共包含13233 张图片 5749 种不同身份;世界记录99.7%。
  • CK+ (一个人脸表情数据集),包含固定表情和自发表情,包含123个人的593个表情序列。每个序列的目标表情被FACS编码,同时添加了已验证的情感标签(生气、厌恶、害怕、快乐、悲伤、惊讶)。

 

(3)需要说明“有效距离,左右角度,上下角度,速度”等参数值(范围)

注:这和“部署的灵活性”相关——由于不同客户不同场景的需求不同,所以技术方的人脸检测模块,一般可以通过调整参数得到N种亚型,以适应不同应用场景(光照、角度、有效距离、速度) 下对运算量和有效检测距离的需求。

(4)测试结果——欠拟合

  • 定义:模型没有很好地捕捉到数据特征,不能够很好地拟合数据

 

 

一文读懂人脸识别技术_第10张图片

 

 

一文读懂人脸识别技术_第11张图片

 

 

一文读懂人脸识别技术_第12张图片

 

 

 

左图表示size与prize关系的数据,中间的图就是出现欠拟合的模型,不能够很好地拟合数据,如果在中间的图的模型后面再加一个二次项,就可以很好地拟合图中的数据了,如右面的图所示。

  • 解决方法

 

  1. 添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。例如,“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段,无论在什么场景,都可以照葫芦画瓢,总会得到意想不到的效果。
  2. 添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。例如上面的图片的例子。
  3. 减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。
  4. 尝试非线性模型,比如核SVM 、决策树、DNN等模型。

 

(5)测试结果——过拟合

  • 定义:模型把数据学习的太彻底,以至于把噪声数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地识别数据,即不能正确的分类,模型泛化能力太差。例如下面的例子。

 

 

一文读懂人脸识别技术_第13张图片

 

 

一文读懂人脸识别技术_第14张图片

 

 

 

上面左图表示size和prize的关系,我们学习到的模型曲线如右图所示,虽然在训练的时候模型可以很好地匹配数据,但是很显然过度扭曲了曲线,不是真实的size与prize曲线。

  • 解决方法

 

从产品角度:

  1. 重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,噪音太多影响到模型效果,如果出现了过拟合就需要我们重新清洗数据。
  2. 增大数据的训练量,还有一个原因就是我们用于训练的数据量太小导致的,训练数据占总数据的比例过小。

 

从算法角度:

  1. 交叉检验,通过交叉检验得到较优的模型参数;
  2. 特征选择,减少特征数或使用较少的特征组合,对于按区间离散化的特征,增大划分的区间;
  3. 正则化,常用的有 L1、L2 正则。而且 L1正则还可以自动进行特征选择;
  4. 如果有正则项则可以考虑增大正则项参数 lambda;
  5. 增加训练数据可以有限的避免过拟合;
  6. Bagging ,将多个弱学习器Bagging 一下效果会好很多,比如随机森林等.

 

4.5 标注流程中遇到的问题

(1)项目过程中的不确定性

a. 出现原因:

一般情况下,只要数据标注的规范清晰,对规则的界定从一而终,标注工作的流程还是比较简单的。

数据标注规范可能会在测试后根据结果情况进行调整,那么,规则修改前后“数据标注的一致性”就出现了问题,会导致多次返工,在时间和人工成本上颇有影响。

b. 解决方法:

  1. 1)如是分类性质的解析工作,建议标注规则先从非常肯定的非黑即白开始;规则设定由简到繁,带有疑虑数据再另外作记号。随着规则一步步深入,可能会出现交叉影响,此时就需要放弃一些低频问题的规则,余下的未标注的数据就根据新的规则标注。
  2. 2)如是多类规则同时进行的标注工作,需要把每类规则定得足够细致。
  3. 3)实例:
  • 如询问机器人会干什么的语料中出现,“你说你会干什么?”可以理解为询问,也可能是嫌弃,这两类应对的策略不同,有歧义,所以不能把它归纳如询问类,需要把它从训练集里剔除。
  • 如人脸情绪识别中,一个人在流眼泪,有时可以理解为伤心落泪,有时可以理解为喜极而泣,还有时可以理解为激动落泪,甚至是感动落泪等,所以在看到此类照片时,不能简单的凭借惯性化思维将其归纳到悲伤一类中,当人眼都很难判别清楚时,需要把它从训练集里剔除。

 

5. 实际案例分析

5.1 某领域的人脸识别监测与身份确认

(1)案例问题

光照影响:过暗或过亮等非正常光照环境,会对模型的效果产生很大干扰。

(2)解决方案

a. 从产品角度控制

  1. 在用户可以更换环境的前提下(比如银行刷脸取钱等),可语音/界面提示用户目前环境不理想(头歪、头发、眼镜等),建议进行正确的正脸取照。
  2. 在用户不能控制更换环境的情况下(比如人脸识别、车辆识别等摄像头固定的场景),只能通过调试硬件设施弥补这个问题。
  3. 晚上:由于摄像头在晚上会自动切换到黑夜场景(从图片上看就是从彩色切换为黑白),因此在晚上强光下(例如路灯照射)人脸就会过曝,这时,我们可以通过强制设置摄像头环境为白天(图像为彩色)来避免。而过暗的情况,从节省成本角度看,可以在摄像头旁边增加一个光线发散、功率不高的灯来弥补。当然这两个问题也可以通过购买高质量的摄像头解决,但这样做也意味着更高的成本。
  4. 白天:白天也会出现光线过亮的情况,这种情况可以考虑用滤光片等等。

 

b. 从算法角度控制

用算法将图片进行处理,可以将图片恢复得让人眼看清的程度。

5.2 某款人脸年龄识别产品

(1)案例问题

一款识别人脸年龄的产品对女性某个年龄阶段(25—35)的判断,误差较大,经过发现,是因为该年龄阶段有以下特点:

  • 女性在这个年龄阶段面貌变化不是很大,有时人眼给出的判断误差都很离谱。
  • 在这个年龄层次的女性注重打扮,化妆品很大程度上掩盖了其真实年龄,有时30多的跟20岁没多大差别;C. 精装打扮的和素颜的差别不是很大。

 

(2)解决方案

  • 补充数据:针对该年龄层次的人脸图片数据做补充。不仅补充正例(“XXX”应为多少岁),还应补充负例(“XXX”不应为多少岁)。
  • 优化数据:修改大批以往的错误标注。
  • 数据总结:对化妆和不化妆的人脸图片进行分析,以便调整算法参数。

 

(3)需求研究

  • 自拍:如女性群体一般都希望自拍时,年龄的判别在心里预期中能越小越好,当在和一群人自拍中可以适当的将主人公的年龄判别结果调低至达到用户心理满足感。此时可适当降低算法的参照度。
  • 婚恋交友:在婚恋网站交友过程中,双方都希望知道彼此的真实年龄信息,此时运用人脸年龄识别可以分析双方的年龄、皮肤等物理信息为彼此提供参考。此时的信息就不能以达到心理满足感为主了,应当追求准确度。

 

5.3 某款AR美颜相机

(1)无法定位出人脸

在背景出现多人或宠物时,相机有时并未能精确定位出目标用户,而定位到背景图片中的人、宠物、身旁的其他人;有时屏幕一片漆黑;有时显示未检测出人脸。

  • 从产品角度:界面提醒用户远离复杂背景,或美颜时最好屏幕中只出现一人,或给出方框图让用户自己手动选择主要定位区域进行AR美颜;屏幕一片漆黑时可提醒用户是否是光线太暗,或是摄像头被障碍物遮挡等;
  • 从算法角度:可对人脸关键点进行定位,计算目标用户与摄像头的距离或计算人脸在频幕的区域占比来确定目标用户(一般几何距离近的、频幕区域占比较大的为美颜目标),结合活体检测来排除背景图片人物的干扰等。

 

(2)图像模糊昏暗

光线太暗、运动、对焦等造成模糊(摄像头距离因素,造成图像低频存在,高频流失等)

  • 从产品角度:可提醒用户在光线较温和的区域进行美颜操作;或是擦除前置摄像头的障碍物;或文字提示动作太快;或是更换高清前置摄像头;或提示对焦失败,给与对焦框图让用户手动对焦等。
  • 从算法角度:在美颜前可在后台中调取手机亮度调节功能,用算法调节光线的亮暗程度以适应美颜所需的物理条件;用算法设法补齐高频部分从,而减少对照片的干扰。

 

(3)人脸关键动作抓捕太慢

在进行AR美颜搞怪时(如张嘴动作,屏幕出现音符、唾沫星子等)对动作抓捕太慢(半天才抓捕到张嘴动作)。

  • 从产品角度:文字提示不支持快速移动或提示缓慢移动(如,亲!您的动作太快了,奴家还未反应过来等)
  • 从算法角度:人脸姿态估计、关键点定位来捕捉人脸动作。

 

(4)关键位置添加虚拟物品失败(如在嘴上叼烟、耳朵吊耳环、眼镜戴墨镜、脸显红晕)

  • 从产品角度:文字/图片提醒用户摆正人脸位置。
  • 从算法角度:可利用算法对人脸关键区域进行分割并定位,来达到人脸精准定位添加虚拟物品

 

5.4 人脸开门和人脸检索

(1)人脸开门等跨网方案需要关注的因素

  • 远程算法更新:远程算法更新必然会造成本地局域网功能暂时性无法使用。因此远程算法更新的频率、时间、更新效果都需要产品在更新前精确评估。
  • 增删改人脸数据与本地数据的同步:本地局域网和互联网是无法直接交互的,因此用户在互联网一旦对人脸数据库进行增删改的操作,下发程序的稳定性和及时性都需要重点关注。
  • 硬件环境:本地存储空间的大小和GPU直接影响到本地识别的速度。服务器的稳定性影响到功能地正常使用。
  • 守护程序:断电等外置情况意外情况发生又被处理完善后,程序能自动恢复正常。

 

(2)人脸检索等某一局域网方案需要关注的因素

  • 速度:除了算法识别需要消耗一定时间外,该局域网下的网速会影响到识别结果输出的速度。
  • 数据库架构:通过检索结果关联结构化数据。
  • 阈值的可配置性:在界面设置阈值功能,从产品层面输入阈值后,改变相对应的结果输出。
  • 输出结果排序:根据相似度排序或结构化数据排序内容地抉择
  • 云服务的稳定性。

 

5.5 旷视科技官网产品体验(多图预警)

(1)年龄略有差距,自我估计+-5,性别基本无误,头部状态略有误差,人种误差在30-40%(样本量10,白种人和黄种人误差明显),情绪基本无误,眼镜种类识别有误差(商品识别的范畴),强光状态下表现不佳。

一文读懂人脸识别技术_第15张图片

 

 

(2)逻辑错误:左眼(睁眼、普通眼镜)、右眼(墨镜);相似度大(下图为张一山和夏雨)的较难区分(双胞胎估计很难区分)

 

一文读懂人脸识别技术_第16张图片

 

 

一文读懂人脸识别技术_第17张图片

 

 

一文读懂人脸识别技术_第18张图片

 

 

 

(3)远距离检测较难:左图检测出一张,右图检测出两张(估计10米开外检测不到)

 

一文读懂人脸识别技术_第19张图片

 

 

 

 

一文读懂人脸识别技术_第20张图片

 

 

 

(4)能够识别蜡像、海报等非真人场景,因此在一些场合可欺骗摄像头,如在金融领域里的身份识别,海关检查等关键性应用中,将会有风险。

 

一文读懂人脸识别技术_第21张图片

 

 

一文读懂人脸识别技术_第22张图片

 

 

一文读懂人脸识别技术_第23张图片

 

 

 

(5)佩戴的口罩无法检测出人脸

一文读懂人脸识别技术_第24张图片

 

 

(6)公司体验对比结果

一文读懂人脸识别技术_第25张图片

 

 

6. 项目虚拟实战(以AR美颜APP为例,过程为理论经验推理所得,自己并未实习)

人脸检测系统下,有很多FR相关的应用,比如人脸属性识别(年龄、表情、性别、种族等)、人脸美颜/美妆、人脸聚类等等。我们从AR美颜/美妆这一个例子着手,探索项目的具体流程。

6.1 项目前期准备

(1)需求调研

场景及痛点:现在大多数美颜相机拍照后,都只有添加各种滤镜、加几个字、变白一点,早已经不能满足广大女性群体对于美颜的需求;加上如今年轻女性和男性的审美标准和猎奇心理都在发生改变,社交方式的趣味性也变得不同,比如原来大家可能在空间、朋友圈、直播上看到美女帅哥都会觉得很吸睛,点赞粉丝直奔而来,但随着快手和抖音的出现,可以发现不仅仅是俊男靓女的照片和视频能引起围观,同样的各种普通群众的搞怪合成视频或合成照片(虚拟的AR特效带来的各种浮夸造型)同样能吸引无数粉丝的追捧,让普通人也能享受被人膜拜的满足感,而这些都需要用到人脸识别的相关技术。

(2)目标用户画像分析

  • 了解目标用户的主流群体:学生(大学生、高中生、初中生)群体对月美颜美妆的心理需求、时尚人士的美妆需求、长相普通的人和长相突出的人对于美颜的心理需求等。
  • 了解用户的年龄组成、地域分布对应美妆的特点。
  • 不同收入群体(白领、金领、蓝领等)的美颜美妆需求关注点。

 

(3)市场分析

美颜美妆的市场规模,产业链,潜在的边际效应利益等。

6.2 文档准备

(1)需求文档

详细的分析目前的用户需求,针对不同群体,设计不同的产品解决方案,包括市场的需求文档。

(2)数据文档

前期的人脸图片收集、分发、标注总结文档(确定什么样的图片能要,什么样的不能要),各种脸型(长的、宽的、圆的、前额凸出的、眼睛深陷的等等)的分类,多少人完成眼睛美颜图片的分类等。

(3)产品文档

  • 场景落地文档:如听歌时头上戴虚拟耳机,叹气时嘴上叼烟,说话时唾沫星子等针对不同的人脸姿态场景研究可能的落地产品形式。
  • 产品的设计文档:如美颜APP的页面交互设计、导航设计、视觉呈现设计等;直播APP中的弹幕呈现设计、点赞分享按钮设计等。
  • 产品开发流程文档:如PM先提交需求、可行性分析、立项、设计流程、开发流程,算法搭建、模型训练、测试训练等一系列流程的步骤及跟进。
  • 模型训练及测试文档:数据标注好后,喂给算法,搭建人脸识别美颜的模型框架,如前期用成千上万的照片训练机器的人脸关键点定位,让机器找准鼻子、眼睛、耳朵、嘴等位置等。

 

6.3 数据标注

(1)数据图片的采集

在文档的指引下,从公开网站上爬取收集符合模型训练的人脸图片、或是运用公司的数据图片等

(2)数据图片的标注

在标注规范文档的指引下,将图片分发给标注团队进行数据的标注,对一些模棱两可的图片,如图片中的人脸较模糊,此时该照片是要还是不要,期间应与算法同事保持沟通,有时暗的图片在算法的优化中能准确识别,这样增加实际情况的容错率(实际中较暗的人脸图像也能定位出关键部位),那么这张图片则视为有效数据;有时较暗的图片经过算法之后并不能达到要求(及无法定位出人脸关键点),此时这照片则视为无效数据,直接剔除;但是标注团队并不知道这张图片是有效还是无效,所以标注过程中,算法同事也需间接参与进来。

(3)数据的反馈

在部分图片标注过程后,交于算法同事训练模型调节参数,期间将测试后的数据(精确率和召回率的计算,来反映数据的标注结果)反馈给还在标注的人员,有时可能造成过拟合有时可能造成欠拟合等方便对数据进行重新操作。

6.4 项目流程跟踪

(1)产品立项后,每天的任务管理,流程进度跟踪,产出时间管理,开会反馈工作成果等。

(2)软硬件端:在开发流程文档的指引下,按照常规的软硬件跟踪开发。

(3)算法流程:人脸采集、人脸检测、图像的预处理(模糊的则用算法去模糊等)、人脸特征提取、图像的匹配识别、AR虚拟等。

6.5 项目测试

  1. 手机摄像头测试
  2. 平台后台程序测序
  3. 算法与平台后台测试
  4. 模型识别时间、准确率、召回率测试
  5. 服务器稳定性测试
  6. 网络带宽限制测试
  7. 其他平台、硬件产品常规测试
  8. 目标用户使用测试

 

6.6 项目优化

经过各种测试之后,针对反馈回来的数据进行产品的优化。

如一张嘴就给你来根烟,结果烟插到鼻子上了,这就明显是没有定位到人脸关键点,是数据的原因还是算法的原因,这些都要经过优化处理;经过种子用户测试后,反馈得知这个点赞按钮操作起来有点别扭,应该怎样怎样,这时可能要与设计的同学讨论一下,该怎样优化产品的设计和体验。

6.7 项目验收上线

产品按照流程功能进行验收后上线。

06 FR的个人看法

1. 人脸识别的现状

1.1 实验室效果和现实效果对比,差距巨大

现如今的人脸识别技术在金融、安防等领域的应用实际上的效果要比实验室里的差很多,前阵子西安的某高校引入人脸识别晨读打卡,由于反应速度太慢,到中午还排着很长的队。可见实际生活中,由于各种物理因素(光照、角度、对焦、人鱼摄像头的距离等)导致抓拍的图片质量比较差,又经过网络传输到局域网/互联网进行对比(网络差的过程中,反应很慢),使得实际效果大打折扣。大多数情况下,实际抓拍图像质量远低于训练图像质量。

1.2 训练时的标准和实际应用的标准

大多数情况下,实际应用的标准会远高于训练标准。例如,人脸识别实验室的标准是通过正脸数据训练出模型,能识别正确人脸就可以。而实际情况可能没有正脸数据,对训练提出了更高的要求。

1.3 训练效果和现实效果

大多数情况下,实际效果会远低于训练效果。现在市面上CV公司都是说自己的训练效果在99%以上(无限接近于100%),但这不等于实际应用的效果就是99%。工业上场景复杂的人脸应用(类似识别黑名单这种1:N的人脸比对)正确率在90%以上就已经是表现得很好的算法模型。

2. 未来发展趋势的思考

随着人工智能的火热和发展,在全球信息化、云计算、大数据的背景下,生物识别技术的应用面会越来越大,由以人脸识别为其中代表。以下几个发展趋势呈现:

  • 网络化趋势:人脸识别解决了日常生活中一个基本的身份识别问题,今后,这总身份认证的结果会越来越多的和各行各业应用结合起来,并通过互联网和物联网得以信息共享,简单来说就是“身份识别+物联网”的发展趋势未来将十分普遍。
  • 多生物识别模式融合趋势:人脸识别技术现如今的还达不到人类的预期体验,对于一些安全性要求高的特殊行业应用,如金融行业,人脸识别很容易被不法分子攻破漏洞进行身份造假,因此需要多种生物特征识别技术的融合应用(如活体检测、虹膜识别等)以进一步提高身份识别的整体安全性。
  • 云技术:未来的云技术也将大大给人脸识别的应用提供数据和计算力支持,基于云技术的门禁控制可以同时管理成百上千的通道,加上物联网的普及,用户对任何地方的门禁进行远程控制和管理,准确识别本人,将广泛应用到企业、学校、培训机构、大型商业场合、办公大楼的门禁解决方案。

 

3. 盈利模式的思考

(1)单一盈利模式

现如今的人脸识别技术服务商,都以将技术接入第三方应用软件,或是搭载在智能终端上,通过收取一定技术服务费来获取盈利。目前国内的第一梯队创业公司都在技术和数据上沉淀,而是否盈利,盈利多少都还尚不明确。

如在金融领域,人脸识别用于身份确认,然而身份确认之后,就没你什么事,你跟用户的关系只在于,打开某款APP或某个终端场景(闸机)的钥匙,打开之后,用户的所有行为都沉浸在APP中,并没有给FR技术服务商带来其他的使用数据及用户行为信息;从根本上来看,用户只是用钥匙开了门,而往往是门里面的东西(用户数据)才能带来商业价值。

(2)对比互联网和移动互联网

  1. 互联网时代早期有很多功能性的产品。如早年间的QQ只有聊天的功能;360用户只是用它来给电脑杀杀毒;百度就是个即问即答的老师;搜狐、新浪也就是用来看看新闻而已。
  2. 移动互联网时代也有很多这样的产品。滴滴帮用户叫个车;高德也就差不多是古代的指南针。
  3. 案例分析:众所周知,上面举的例子不是互联网时代的高市值企业,就是移动互联网时代高融资率的企业。
  4. QQ后来用户数越来越多,QQ号成网络身份的一个必不可少的身份属性之一,用户大量的数据沉淀在其中,通过用户的使用行为信息,小马哥知道了这么多人都用我的QQ,那赶紧搞个什么娱乐活动,让有QQ号的人都来玩,于是就有了庞大的游戏帝国产业,游戏里面又加上各种钻(什么粉钻、绿钻、紫钻、黑钻)对应的各种会员机制,QQ号又以其他的方式来获取用户的行为信息如,QQ音乐(下歌要钱、换皮肤要钱)、腾讯视频(各种广告收入、会员充钱等)、QQ邮箱(会员高级功能)等,让人们越加沉浸在QQ帝国的生态圈中,莫名其妙的就被吸走了很多钱。可能你会说我还可以用其他的呀,但是好烦啊,这个也要注册,那个也要注册,明明一个QQ号可以玩转所有,没办法我就是这么懒,所以说懒人创造了这个世界的绝大多数科技产品。
  5. 滴滴现如今估值几百亿美刀,投资人为何给一个只帮你叫车的公司如此高的估值,我们知道滴滴打车比一般的直接叫车要便宜一点点(专车除外),那它的盈利点从而来,投资人有看中了它的哪一点。其实不难理解,滴滴之所以有如今的估值,正因为其几乎垄断了国内的打车市场,大量的用户使用它,必然就会有用户的使用数据,而这些数据便是变现的好东西,一旦整个生态搭建完毕,未来滴滴就将这些数据用无人驾驶方面,一旦抢占了市场的制高点,未来在行业链上就有绝对的议价能力。比如现在人们已经习惯了去一个陌生地方,就来一个滴滴打车,若滴滴突然涨价,一公里涨几毛或一元,你用它还是不用;心理学表明,人养成一个习惯之后,就会有惯性,对于没有超出心理承受预期的东西(不是涨价涨得特别离谱),人们会一直保持这个习惯中的一些行为,而不愿做出改变(也就是常说的人有一种惰性)。因此我想大多数人都会去接受,因为可能你花时间自己打车也是需要很多成本的;用户基数比较大,那这个涨了几毛的就会带来不少的盈利空间(中国十几亿人口,一人给我一毛钱,我都能成为亿万富翁了,但对别人而言,一毛钱可能连袋辣条都买不到),这还只是一方面。

 

d. 人脸识别作为一种技术,并没有实际的产品承载点。以上分析中的种种产品,你都能叫出来名字,是因为这些功能或是技术都有一个实际的产品承载点,比如QQ用了即时通讯技术,头条背后的智能推荐用了机器学习相关技术,但在我们心目中它不是以一种技术停留在我们的心智空间里,它是一款实实在在的产品,我们可以操作它,使用它。无论是QQ还是滴滴、高德、今热头条、新浪等等,这些产品我们都能实实在在的接触到,并且后续行为都在这个技术的承载点里(如即时通讯技术的产品承载点是QQ,机器学习技术的产品承载点是头条),那么用户的数据自然也就在产品承载点之中,这样我们才能应用数据来创造价值,从而实现盈利。

e. 人脸识别目前的阶段停留在大众视野里只是一种技术,人们的潜意识里并没有建立起一个概念,那就是这个人脸识别到底是个什么东西,我能操作它吗?它能给我带来什么呢?而一旦人脸识别有一个产品承载点,让用户能实实在在的进行操作,并有数据积累,才会有盈利的可能。而人脸识别的产品承载点是什么,目前还都没有出现,未来肯定会有,这也是未来的一大机会,无论是什么,这个产品必然都能被用户实实在在的接触到,并且后续也都将在其中产生行为,后者是必要条件。

4. 信息安全的思考

一旦前面提到的产品承载点出现,FR技术必将大行其道,随之而来的可能是信息安全问题。

物联网时代之下,万物互联,万物智能,FR技术也必将融入到物联网之中,人们可能都不需要身份类的实物证件。回家开门扫脸,外出开车门扫脸,进公司扫脸,出去吃饭付钱扫脸。当人脸成为你的虚拟证件时,一旦又不法公司、团体、个人泄露或是破解了你的人脸虚拟证件,那么你的一切信息可能都暴露在他人面前,财产、房子、车子可能都有风险,还有可能因为丢失人脸证件,将无法证明你自己的身份,就像你丢了身份证一样。可想而知信息安全的重要性,未来估计会诞生一个虚拟身份信息系统,里面有每一个人的身份信息,当第三方需要身份认证时,可接入系统等。前阵子脸书因为社交信息泄露而惹上众怒引起公关麻烦。我想未来如果有一个公司专门负责用户信息数据的监管,我也不会觉得很奇怪的。

5. 产品形式的思考

  • 可接触性:无论FR技术最终是以硬件还是软件方式出现在用户面前,前提是用户能够实际的接触到,而不是仿佛在云端不可触摸,只有用户接触了,才能在心里产生出它是一款产品,而不是一项技术的概念。如AR美颜就是实实在在可操作的产品。
  • 连续使用性(高频性):产品必须是用户能连续使用的,也就是所谓的高频性,只有这样才能产生可利用的信息数据来变现。
  • 功能承载性:产品要能以一种功能的方式为用户解决生活中的某一类问题。人脸除了身份认证(金融行业、安防门禁)、视觉欣赏(美颜美妆、整容)、社交评判依据(婚恋网站)还能用来干什么呢?
  • To C or To B:结合互联网时代的发展,我个人始终认为一款产品只有围绕用户提供服务,才有可能成就明星产品。从历史的角度来看,每一个王朝的兴衰更替都是以老百姓的意愿为转移,有道是“水能载舟亦能覆舟”。产品亦是如此,产品概念诞生到现在,每一款产品的兴衰也都是建立在用户的基础之上。任何一款产品抛开用户之后都只能死亡,尽管目前FR大层面上应用在B端,但是未来成功的FR应用产品必然是诞生在C端。

 

下面附上总结这篇系列文章的思路导图:

一文读懂人脸识别技术_第26张图片

 

 

大图地址:

https://upload-images.jianshu.io/upload_images/8484039-397ceeedb8b3d438.png

你可能感兴趣的:(人工智能)