文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。




转自 | 中国人工智能学会


本篇大家整理的是来自上海交通大学人工智能研究院副院长、华东师范大学特聘教授,国家杰出青年基金获得者马利庄主题为《基于大数据的人脸识别技术进展与展望》的精彩演讲。马院长参与了腾讯优图人脸识别、微众银行刷脸验证、商汤3D人体姿态估计等项目,具有丰富的理论和实践经验。


640?wx_fmt=png

马利庄

上海交通大学人工智能研究院副院长、华东师范大学特聘教授,国家杰出青年基金获得者


以下内容根据速记进行整理,经过马利庄本人校对。


我汇报提纲包括七个内容。首先回顾一下过去十几年发生的事情。一个是数字化时代兴起,它催生了互联网,这是我们时代的主流大趋势。许多的产业,像数字媒体业,数字相机,VR/AR的技术兴起。当然我们也知道伴随着一些行业的衰落,像胶卷等一些传统的行业。早的时候,我们计算机还有很多的硬盘拷贝等等,这些现在都没有了。就是因为数字化的时代催生了互联网的时代。


我们刚才看到动动三维这个创意设计,里面也把一些创意工作放在网上去了,数字化,利用图形图像技术来展现。互联网时代催生了大数据。我们知道有众多的新媒体产生,如微信,几乎每个人都在使用,平均花2个小时到3个小时,都是数据的使用者,同时也是产生者,自然形成了社交大数据。微信不仅是社交的工具,也是一个工作的工具;同时成为了一个游戏,这是个深刻改变了人们生活形态的互联网时代。同样,有一些产业衰落。我们看到街头的小商店,小商品市场不景气。我印象最深刻的是义乌的小商品市场,现在日子很不好过。


互联网以及伴随产生的大数据催生了人工智能时代!人工智能有三个要素:


一个是大数据,有大数据作为原料;


第二个是计算能力,主要是GPU与CPU等;


最后是核心的算法,深度学习/卷积神经网络算法。


我1992年在浙大人工智能研究所做博士后,当时跟何志均先生,潘云鹤教授是人工智能研究所的所长,那时就研究人工智能,但三起三落,人工智能的发展是螺旋式演进的。当时人工智能的发展为什么非常曲折和起伏,原因主要是缺少一个大数据的原料,缺少大量的算力,同时缺少深度学习等卷积神经网络新算法。当时计算能力限制,算法处理不了现在大量复杂的数据或者大数据。像人脸识别的深度学习算法,需要要标注数据,我们与腾讯的优图人脸项目中,用了近百万级别的人脸标注。在当时九十年代,这是难以想象的规模。


当时有软盘,只有1兆多,现在一幅超高清的图像都是几兆数据,甚至更高。我们做AI+医疗的研究,分析肿瘤的病理切片。一张图片有上百兆数据,包括深度学习时涉及的相关参数,算法实现过程显示内存很可能不够。


人工智能时代催生智能手机,智能安防,智能社区,智能语音与机器人等。在座的各位比较幸运,因为人工智能时代中长久兴旺的是软件行业,创意创新。智能创意不可能被AI替代。但目标明确,规则清晰的行业就非常可能被AI替代。


9亿的微信用户,每天有10多亿的图像和视频数据传输。阿里巴巴改写了商业版图,伴随大数据,人工智能兴起。在座的可能在股市中投资,过去几年,NVDIA和AMD的股价涨了十倍,重要的因素是AI对计算能力的需求大幅增长,当然另外的原因是比特币和区块链的热潮中,大量挖矿对算力的海量需求。


互联网的极速发展,自然汇聚了可视媒体大数据。这些信息的增长改变了我们的生活方式,例如社交网络中的微信。当然也有挑战,大数据体量已经超越了现有的硬件处理条件,比如说存储空间,和计算资源的不足。我们认为该领域的科学问题包括:数据的高效表达,智能的处理以及结构化,深度学习与感知理论,基于视觉感知的失真度量,不确定环境下的任务感知与理解等。


现在有理论研究证明深度学习模型合适条件下可以收敛到全局最优解。这是目前为止深度学习中最新的一个理论成果。我们在座各位要重视。以前我们调侃各种深度学习模型重要的是调参数,有人运气好,会调出好的结果,但现在有理论依据和保障。


技术的突破源于需求。城市大数据,有很多交通、环境的感知数据等。金融大数据,阿里、腾讯、百度都有积极的介入,希望提升运用效率和结构效率。互联网金融中,还有所谓的万物互联;徐教授也讲了,不光是视觉,听觉,还有嗅觉,味觉等等相关的感知数据。将人、路由器,服务器,业务系统等等作为研究对象,以网络地图的方式实现网络空间态势感知,服务于网络***战。这就是斯诺登揭示的棱镜项目。


回到主题,智慧城市以人为中心,我们人工智能是要保障个体的信息安全,提高人的生活质量,让生活更美好。2010年世博会,上海提出城市让生活更美好,非常符合我们智慧城市的总体目标。个体信息安全就涉及到身份的认证和门禁、监控等。所以人脸识别和行为姿态识别是关键技术。


现在讲一个比较形象的术语就是刷脸技术。很多人都知道,早几年的时候,我们跟腾讯合作研发微众银行的刷脸技术,微众银行只需一个总部即可,不像工商银行一样有几万的分支机构。它只要一个总部,其业务都可以通过远程核身和身份认证可以实现。当时总理亲历了刷脸技术过程。刷脸验证,出租司机获得了3.5万元的贷款。这是微众银行的第一笔互联网银行的放贷业务。


互联网人脸识别技术跟传统银行不同。银行里面我们知道有“三亲”原则。这是互联网金融这块必须考虑的问题,亲见申请人本人,亲核申请人×××原件,亲见申请人本人签字。我们可以通过远程核身技术做到。


传统的方法是人工成本高。刚才讲的刷脸技术用于银行中的互联网金融,刷脸准确率99.9%还是不够。生物识别技术有很多种,我们要融合多元特征,例如脸部表情、声音或声纹,还有人脸的特征,提高身份远程核身的可靠性和准确率。人脸识别是最为自然的交互技术,现在可以做到非常高的精度。我们知道让你按一个手印,可能你感觉像罪犯,因为身体的接触,很多人比较忌讳。目前人脸识别技术有门槛。我们跟腾讯优图合作来,在LFW数据集上可以达到99.65%和99.8%。


人脸识别技术挑战与难点,主要是图像的采集质量;其次是光照环境和姿态。因为识别分为主动式和被动式;金融支付里面是人会主动配合采集设备,图像质量和人脸姿态好。这种情形,识别率可以达到99%。但很多时候,人脸会在不同的光照条件下,产生大的差异,比如说昨天晚上我们部分智能创意与数字艺术的专委会人员合影的时候,背影强光,人脸拍出来就很暗,姿态也各异等等。还有年龄跨度问题等。×××有效期有15年或20年。还有院士说猪脸的识别,猪脸状态是短暂的,或者快速变化的,因为生长周期一般只有半年,其识别率会大大下降。我们知道蜡像,外形几乎跟你做的一模一样。当然蜡像缺乏脸部表情,让他对话就露馅了。我们捕捉脸部表情的微变化这个就可以防御有人用它来欺骗***系统。


目前我们的研究方向包括深度学习技术,基于人脸物理性质的推理和人脸语义或表情的推理;人脸监测,特征跟踪,跨年龄的人脸识别,以及三维人脸识别。我们重点攻克三维人脸识别。一张正面的照片,可以生成一张逼真的三维人脸。


活体检测可以真正提高我们这个识别系统的安全性。有的公司号称是采用人脸识别技术,其实用一张大照片就能通过验证。这说明他们没有采用活体检测,也没有用三维光照变化的信息,以及综合人脸表情、声纹来辨别真假。


下面我讲讲互联网金融视频监控中取得的进展。


大的框架,我们看看人脸识别上面。这是我们跟腾讯的优图组一起合作,基于腾讯云平台和相关的人脸识别技术。2014年的时候,在FDDB数据集上人脸检测达到了世界第一,人脸识别率在LFW数据集上刷新世界纪录99.65%。采用的主要是标注大量的人脸图片与非人脸图片的数据(近百万级别)。这在20年以前是难以想象的。腾讯优图有很多的实习生,认真的标注。我们采用VIOLA-Jones瀑布流框架的算法优化。


大规模小人脸的检测方面。这张照片里面人脸数目上千。计算机视觉算法可以识别超860个人脸。以前的方法是无法想象的。一般的人能够识别到两百多个,已经非常很难。主要是用的这个DSFD人脸检验算法,包括了特征增强模块、分层锚点渐进式LOSS的算法。


根据人脸识别的身份认证。我们用百万级人脸数据库训练,多个数百层深度学习模型集成。目前有一个权威数据集MegaFace,我们项目组取得了83.29%的准确率,位列榜首。我们提出了新的光线活体提高识别方法的安全性。大家知道安全性非常重要,真正用于安全监控以及公安系统的时候,不光是识别人脸模型,还要考虑防伪和防***。我们这次进博会刷脸系统应用,每天差不多30万人进出场馆。我们知道6位的金融密码,其实试一百万次就一定有你正确的密码。30万人中,脸长得非常像的概率是很大的,特别是有些双胞胎,很难识别。我们要用到多生物特征技巧,达到安全、简便、高速、通用等要求。


安防监控里面,我们需要找到不同摄像头里的同一个人物。我们以前出了事情后期检验,看问题在哪;现在要同步进行。该任务下一个路径到哪一个地方等等。人的姿态会有很大差异,同一个人的姿态变化也很多。人体重识别方面,我们在三个主流数据上获得第一。主要方法是通过了多任务交替训练,基于分块的金字塔模型。


我们与商汤也是开展了这方面的合作,跟腾讯的合作已经七年多。人体跟踪方面,追踪视频中行人并对其运动轨迹做出预判。项目组的人体跟踪技术,在权威测评MOT challenge上取得了两项记录。采用的技术方法,包括基于图匹配模型的目标关联算法,基于有效动态差分的运动相似度计算算法,以及基于行人再识别技术的特征相似度模型等。还有其他的应用,基于深度学习的人脸识别技术,以及颜值测算,可用于社交娱乐。


我们前年的时候,用了1300台服务器,每天1亿人脸计算平台。还有天天P图,人脸美化等分析技术。


我们跟商汤合作开展3D人体姿态估计。通过单张图片,估计人体的姿态模型。基于二维图像序列估计3D人体姿态是非常实用的。在最大的人体姿态数据集Human3.6M上,我们取得三项指标第一。这个成果还在保密阶段,主要是对人体的快速估计。还有像素级别的语义分割,GTAV和SYNTHIA数据集作为源数据集,Cityscape作为目标数据集,相关的指标Mean IoU提高10个百分点。还有一个是预测RGB图片上每个像素对应位置的深度值。该项研究非常重要。我们在座的肯定有很多搞创意设计,会涉及到二维三维的。我想做个革命性预测,因为有了深度相机以后,基于很好的三维重构技术将来每个普通的人都可以生成三维的场景;普通人拍一段视频就能生成三维的,自然形成海量的三维动画视频数据,这是未来大发展方向。


我很简单的讲一下视觉无损压缩技术。基于人类的视觉特性,对图像进行极限程度的压缩。只要人的视觉感受不出差别,我们对其做一个最大程度的压缩,非常实用。我们在2014年的时候,就处理了1200亿张图片的压缩。这个例子中,左边是3M,右边是700多K,但是肉眼分辨不出哪一个是原始图像。还有相关研究如自动上色和风格化。中国传统文化中有所谓的面像学。相由心生,从大数据的概念,从面部特征包括耳垂,眼眉间距等,找出相关的统计规律。人脸配准和识别可以用于望诊。我们跟上海儿童医学研究院做一个儿童罕见遗传基因缺损症研究项目。例如唐氏综合症,我诧异的是什么呢?两个儿童得了某种基因缺损症,他们没有任何血缘关系,但是脸部的共同特征非常明显。我做基因检测,有将近两千多种的基因缺损症,这个太费钱费时。我用照片筛选一下,判断一下你的某一个基因可能是缺损的,那么再去做对应的DNA检测。


中医四诊望闻问切,是辨证论治,可采用典型的专家系统方法。比较重要的应用需求就是眼底黄斑病变的AI算法。到了一定年龄以后,人眼普遍会有一定的问题。信息社会,人的视觉消耗太大了。每天手机屏幕那么小,我们在眼底黄斑定位上取得了一个比赛的第一。肺病诊断方面的重大应用需求。现在非常明确的事实,通过AI+医疗智能化算法判别的准确率,比专家级医生提高10多个百分点。我是比较乐观的,计算机AI算法一定会超过专家医生的水平,高精尖的医生永远需要,但工作强度大大降低。


大数据和强大的算力使得深度学习技术有了用武之地。国家对人工智能的期望非常大,我们的压力也很大,到底有多少人工智能的产业能够落地。我想计算机视觉有很多落地的重大应用,也包括部分自然语言处理方面的技术。


人工智能重大需求,一个是纯的互联网银行;第二个是智能安防与公共安全。智慧城市中的异常检测,复杂的场景下的身份认证和行为识别等需要研究。还有一个是新的获取手段,包括深度数码相机。刚才讲的智能动画创作,大众化的创意设计,人工智能+AR/VR。创意设计是我们这个大会的主题之一,这块将有大的进展。总之人工智能不变的是挑战和机遇。