2011 年旷视(Face++)成立,成为国内最早一批在计算机视觉领域的创业公司,此后三年间,旷视科技一直致力于打造自己的人工智能开放云平台,提供人脸识别、图像识别的开放服务。
期间,它开始聚焦在两个行业方向:一个是互联网金融,以提供人脸识别认证服务为主,另外一个是泛物联网,具体来说是将线下的摄像头在端上或云上智能化。
截止目前,旷视的 Face++ 人工智能开放平台的 API 已经服务了近 7 万开发者,已被调用 60 多亿次;身份认证平台在 2016 年为 2.1 亿多人提供了刷脸服务,覆盖了 85% 的金融市场智能化应用,智慧安防和智能商业产品也覆盖到 20 多个省。
2016 年 7 月,它迎来了首席科学家孙剑的重磅加盟,后者曾在微软亚洲研究院工作 13 年,其主要研究方向是计算摄影学、人脸识别和基于深度学习的图像理解。
在旷视的这一年,由孙剑领导的矿视研究院主要在集中研究图像分类、物体检测、语义分割、和序列学习四个视觉理解核心问题。研究的技术路线则是深度学习:使用端到端(end-to-end)的深度神经网络。
今年 9 月,苹果新品宣布 iPhone X 嵌入人脸识别解锁功能,与此同时,国内一些手机厂商也同时布局了该项技术,其中一些手机厂商的人脸解锁功能则由 Face++ 提供技术解决方案,但它们之间有何差异?人脸识别技术在手机上落地状况是怎样的?同时,恰逢旷视成立 6 周年,它在技术上的发展思路是否有新变化,这些我们都跟孙剑聊了聊。
“其实网上有非常多对这项技术的解读,我不知道我再解读有没有太大的意义。”当雷锋网试图想得到对苹果的人脸识别技术是否会有不同的解读内容时, 在旷视的小会议室里,孙剑如是回应。
不过,他也并未完全回绝,反而拿起笔在白板上画草图做了一番讲解。
在他看来,Face ID 最重要的还是它产生的两个技术变革,一个是新的 3D 传感器,另一个是神经网络加速芯片,它有强大的算法,可以适配最先进的深度传感器,新变革也由此产生。
有人脸识别技术不止苹果一家,从这项技术在今年以来变得像一个热词来看,它很有可能会成为手机厂商用来装点“门面”的坠饰,三星、vivo、小米已然嵌入了这项技术,加入先行者阵营。
但它们与苹果有何不同?
孙剑表示, 主要还是光学模组,体现在供应链上,苹果可能会通过收购的方式在前期控制一下供应链,或者签一些排他的协议,而安卓厂商要想在这方面有所作为,就需要找到合适的技术提供商。
而对于神经网络处理芯片,他认为在速度上其他厂商要想追赶并不是特别大的问题,比如华为推出的麒麟 970 芯片,“如果说高端手机的话,就是 iOS 之后,也会有别的家,其实现在手机 GPU 也在加速,肯定不会有苹果这么快的速度,但也是很快就能追上。”
实际上,小米和 vivo 两家国内手机厂商的人脸识别技术就是 Face++ 提供的,与苹果不同的是,这两者应用普通 RGB 前置摄像头来进行解锁,比如米 UI 通过升级用户就可使用。
“苹果的红外摄像头可以在黑暗中解锁,这对 RGB 普通摄像头挑战很大,去年我们觉得只用 RGB 摄像头很难做到实用。但我们现在很好的克服了这个难题:一方面是现在传感器发展比较快,暗光环境下的成像质量也不错;另一方面我们用了很多暗光数据来训练,效果超过了我们的预期。”
而在实际应用中的效果,孙剑表示,不需要像苹果那样的 3D 传感器也能达到好的效能。“基本上屋子里全黑着灯时,如果你点亮屏幕,只要大于 0.5 个流明的微弱光亮就已经足够实现解锁了。”
当然,手机厂商选择 RGB 摄像头也是考虑到成本控制问题。“总是有一个高、中、低端,苹果也没有应用到它们的所有机型,iPhone 8 就没有人脸识别。”因此,像 RGB 摄像头则更多使用在中低端手机产品中。
成本问题之外,产能的不确定性也是其他手机厂商暂时不会跟风使用 3D 传感器的一大缘由,而 RGB 摄像头也有各种“防护层”做防范,所以对大多手机厂商而言,后者是现阶段更优的解决方案。
以下为雷锋网与孙剑的部分对话内容:
雷锋网:Face++ 现在有在做硬件吗?
孙剑:我们现在正在做的是 FPGA 芯片,它是一种可编程的成品芯片,可以把自己的神经网络算法放上去。我们也发布了一个 FPGA 的智能相机,内部叫做 MegEye-C3S。
这个相机是业界第一款全帧率、全画幅(1080P)智能人像抓拍机。全帧率的意思就是说,每秒 30 帧每帧都去抓取,在业界这个指标是最高的。在 FPGA 的芯片上可以运行,这证明你这个东西是可以设计芯片,在 ASCI 芯片上运行。
当然是否回去设计这个芯片,是取决于这个应用的量是不是能达到百万级。从技术上来说,现在是可以做的,但从应用上来说,需要掌握好时间点 。
雷锋网:如果用软件跟芯片等硬件相结合,跟其他的一些芯片厂商进行合作,主要是做哪些工作?
孙剑:一个是软件优化,一个是网络设计。一般在这个芯片上,它需要网络的大小不能太大,精度都是低精度的,正常情况下我们网络的表示都是 32 位的 float,在这里面需要用 8 位或者是更低位的来表示,这样才有利于硬件来发挥它的计算能力,所以要去做定制化的。当然,也存在一些开放的问题需要解决,比如到底怎么样才能让这东西实现低精度,同时精度不要损失太大,这是一个非常大的挑战。
雷锋网(公众号:雷锋网):现在其实可能安卓厂商,很多都想做人脸识别解锁,还有像华为做了 970 神经网络加速芯片,您觉得为什么会在现在这个节点一下爆发了?
孙剑:AI 变革真来了,不管是算法的可能性,还是硬件需要突破,包括传感器的成熟,我们现在正在经历着多维度的技术变革,这也让计算机视觉有了更多可以应用的场景。
对于一家手机厂商,其实跟每一个创业公司都一样,需要去找突破,新的这些技术能带来更好的产品和体验,因为手机市场的竞争是非常激烈的。
所以说只要大家觉得某个技术方面有可能突破,大家就会特意来做这件事情。其实苹果早在三年前就开始收购一些 3D 硬件和软件的公司,这是对一个技术方向的投资,然后到今天才有一个突然的爆发。
雷锋网:在这个爆发的过程中,Face++ 给自己的角色是什么?
孙剑:我们两种角色都会参与,既会输出一些核心的技术,包括神经网络、计算机视觉的能力,也会有构建自己的计算平台,来做新的产品,直接服务客户。
雷锋网:有报道说,你们在做一套适配整个手机平台的智能视觉解决方案?
孙剑:手机方案的话,目前我们比较关心的,一个是手机安全,另外一个是手机影像、图像、照片是不是能够通过人工智能做的更好。
我自己博士毕业后,也做过大概五六年这方面的研究,这个方向叫做计算摄影学。当然那个时候还没有深度学习,基本靠拍脑袋想各种算法来解决问题。
今天神经网络、深度学习复兴了以后,很多问题又可以重新思考和研究。比如有一张照片,可能 1200 万像素,这就需要一个加速芯片来帮你美化照片。因为其实手机在今天除了发微信,就是拍照片,这是用得最多的两个功能。发微信很多时候也是发你自己拍的照片,这个是非常重要的,所以我们会做这方面的工作。
手机是一个很大的驱动力,像传感器对嵌入式设备的推动是非常大的,因为这样传感器的成本就会降下来。应用手机来驱动,这对于我们做一些非手机的功能或自己推出产品也是非常有力的。不管是商业应用,还是做出智能硬件,只有计算力更高、成本更低才能推出来。
雷锋网:现在基本上人脸识别这一块都是做前置摄像头,如果说要做后置摄像头的一些深度信息的获取,其实也可以做到很好的?
孙剑:苹果的 iPhone 7Plus 是双摄的,后置有两个摄像头,通过立体匹配的方式,也可以获取深度信息。苹果的 AR Kit 可以让你把手机的 3D 姿态和周围的 3D 环境实时恢复出来,这个其实是计算机视觉研究了几十年的一个问题。在安卓上, Google 也推了一个叫 AR Core 的技术,当然还有不少第三方公司,主要看和硬件的适配是不是更好、精度是不是更高。
雷锋网:能简单介绍一下您在年初时候发表过一篇有关 ShuffleNet 的论文?
孙剑: ShuffleNet 就是为手机这类计算能力有限的移动设备而专门设计的卷积神经网络模型,它可以让因为运算需求过大而无法在手机上运行的模型能高效运行。神经网络设计目前仍然是一个研究重点,在不同计算量下,可能需要不同的结构。ShuffleNet 的设计最优计算量大概在 5-50 M Flops,这个范围内目前性能最优。关于 ShuffleNet 的技术细节,在今年 7 月公开发表在了我们的研究论文中。
这里提一下,旷视研究院鼓励公开发表我们的研究进展,例如我们今年在计算机视觉年会 CVPR 上共有 5 篇被接受的论文。我们相信,开放的研究环境才能让我们更强大,才能吸引更优秀的人才。
雷锋网:今天是 Face++ 成立六周年,有什么新目标吗?
孙剑:我们会回顾一下过去,展望一下未来,打好现在的基础。虽然已经六年了,但我们还是一个小创业公司,还需要不断探索,做更好的东西出来。我最近在朋友圈讲三件事情对一个创业公司最重要:第一是必须创新;第二是必须不断创新;第三是必须不断高速创新。