根据新智元获得的独家消息,前Adobe首席科学家王珏已经确认加盟国内计算机视觉和深度学习初创企业旷视科技(Face++)。
这是继2016年7月前微软亚洲研究院(MSRA)视觉组的首席研究员、华人深度学习科研的领军人物孙剑之后,又一名加入旷视科技的重量级研究员。根据旷视科技的介绍,2017年4月,在 Adobe 度过了 9 年半研究生涯的王珏博士低调离职,加入旷视(Face++)并带领旷视美国研究院(Megvii Research US)。
王珏曾就读清华,2007 年在美国华盛顿大学获得博士学位,随即加入 Adobe Research。凭借其出色的研究成果,在短短 6 年间,从助理研究员连升数级做到首席科学家 (Principal Scientist),据介绍,他是 Adobe Research 历史上升职最快的科学家之一。
王珏同时在三个领域的最高级别会议和期刊发表论文:计算机视觉,计算机图形学 (包括 11 篇 SIGGRAPH ) 和人机交互,其研究成果广泛应用于 Adobe 的各项产品中,为 Adobe 近10年的影像处理软件升级提供了强有力的技术支持。例如,2010年 Adobe 隆重发布的第一个商用动态视频去背景技术 Roto brush,以及2013年发布的第一款商用图像去模糊工具 Shake Reduction, 都是由王珏主导完成的。
2016年底,王珏博士萌生了离开 Adobe 的想法。“Adobe Research 提供了一个非常舒适和优越的研究环境,但是当你已经通过了它为你带来的所有考验之后,需要在一个新的环境里面继续充实和提高自己。” 王珏这样评价自己的离职诉求。
这个想法传开后,王珏博士收到了许多公司的邀请,既有 Google, Facebook,以及腾讯和阿里这样的行业巨头,也有中美的多家创业公司。那么王珏博士最终选择旷视的原因是什么呢?王珏博士是这样解释的:
“主要是三个方面的原因。一是和旷视有天然的亲近感。旷视是一帮有才华的清华年轻人创立的,在企业文化中有清华行胜于言,脚踏实地的价值观。对于作为清华校友的我来讲,对于这样的文化有天然的熟悉和亲近感。二是孙剑博士的诚意邀请。我和孙剑博士认识和同行多年,彼此都比较熟悉,他不远万里到西雅图来邀请我,我内心是无法拒绝的。第三是机遇。我个人觉得中国目前人工智能研究的环境,从数据规模到商业机会都比美国要好,但是在人才储备上仍然不占优势。能够帮助中国的人工智能公司,特别是初创公司更进一步,在美国吸引顶尖人才为我所用,对中国高科技发展是一件里程碑性质的事情。这样的机会在人生中并不多见,碰到了就应该抓住”。
回顾自己的职业生涯,王珏博士深有感触: “我个人的研究生涯是从美国公司在中国的研究院 (微软亚洲研究院)开始,现在又加入中国公司在美国的研究院。这样一个交替,见证了中国科技和商业在过去 15 年的高速发展。”
王珏现在带领旷视的美国研究院,与孙剑负责的旷视中国研究院相互呼应。那么,旷视的这个美国研究院目标和定位是什么?
王珏在接受新智元的采访时说:“旷视美国研究院肩负着多重使命。最基本的一点,就是要为公司开拓新的市场,发展新的业务提供强有力的技术支持。也就是说,美国研究院要对旷视北京研究院形成互补,需要独立承担一些新方向的研发工作,而不仅仅是对现有的研究内容锦上添花。在此之上,我们也希望通过自己的努力,提高旷视在世界范围内AI产业和科研中的话语权。最后,要为公司吸引一些在海外的优秀人才为我所用。”
他还说,目前团队在快速扩张中,我们的目标是在较短时间内形成一个有战斗力的团队。这个团队将包括多领域的精兵强将:计算机视觉,图形学,计算摄像学,机器学习以及多媒体等,当然我们也十分注重团队的层次感,要既有老将,也有新兵,既有科学家,也有工程师。
在人才招聘的标准上,王珏有着独特的观点,他说,我认为的最佳招聘是为公司找到契合度最高的人才。我们首先希望候选人对我们在做的事情有高度认同感。其次,我们希望候选人除了在学术研究上已经有所建树之外,能够有把东西真正搞work的强烈兴趣和一定的工程能力。最后,要有那么一点点极客精神。对于即将毕业的研究生来说,发表多少论文不重要,我们希望看到候选人独立思考和全身心投入解决一个问题的态度和过程。
他接着说道,顶级的视觉专家你们新智元已经报道过很多了,但是我们不追求将招聘重心放在顶级专家上。把10个顶级专家放在一起,未必能形成一个有战斗力的团队。对于初创公司来讲,战斗力决定一切。
旷视美国研究院成立两个多月了,它的现状是什么呢?王珏博士说:“我们的理念是行胜于言,认真做事。我特别喜欢公司发的笔记本上面的一句话: Talk is cheap, show me the code。成立短短两个多月,我们已经成立了一个小的团队,已经为旷视的产品提供了多项技术输出,学术界也将很快看到我们的论文和研究成果。” 关于未来,“我们希望能尽快聚拢一批优秀的人,建立一个有意思的研究环境,一起做一些有意思而且有意义的大事情”。
在 Adobe 9 年多的时间里,王珏博士手把手带领过 31 位博士实习生,发表了了 65 篇学术论文,获得了 58 项美国专利,实现了 13 项重要技术的研发和产品转换。在众多的技术之中,王珏博士对2013年发布的去模糊技术 Shake Reduction 情有独钟。这项技术由王珏博士在2012年 Adobe MAX 技术大会上向 5000 多名观众公开演示。然而,让王珏博士记忆犹新的原因并不在此。
王珏博士回忆说:“在13年底的某一天,我被叫到一个会议室,见到了公司的多位高管。老板用投影仪投出了一张模糊的图片,说祝贺你,FBI 用你的技术恢复了这张图片的细节,从而根据其中的线索在 Kansas 解救了两名被绑架的儿童。听到这个消息,我整个人感觉像是被电流击中一般,好几天都处于非常亢奋的状态”。“用自己的技术让这个世界美好了一点点,这对于科研人员来讲,是一件非常有幸福感的事情”。在此之后,FBI 曾多次使用该技术辅助案件的侦破工作。
王珏博士形容自己是经常走在岔道上的人,因为他的研究兴趣非常广泛。“做视觉的觉得我是做图形学的,做图形学的觉得我是做视觉的,两边人都来了我就说自己做人机交互。” 王珏博士这样打趣自己。“我一直以来都不给自己的研究加太多的限制,只关注于做自己感兴趣的事情,自己能做的事情,用心做”。形成这样的研究风格也和王珏博士的经历有关,他在清华自动化系跟随李衍达院士的课题组研究医学成像,在微软研究院跟随王坚博士(现阿里巴巴技术委员会主席)做手写笔、和徐迎庆老师(现清华美术学院信息艺术设计系主任)做动画,在华盛顿大学电子工程系跟随图形学泰斗 Michael Cohen (1998年图形学终身成就奖得主) 研究计算摄像学,“好像从来没有务过本专业的正业”。
长期跨领域的研究,使得王珏博士在研究上总是喜欢多思考一些问题。“比如在做一个算法的时候,我不仅会考虑算法性能,还会考虑算法能否支持有效的用户交互,这往往是传统的计算机视觉研究人员容易忽视的问题。而这,也许是算法是否能够落地的关键。”
王珏对新智元说:“做技术研究的时候,我习惯于一直看到技术的最终应用场景,从而来确定技术的走向,而不是仅仅局限于技术的本身。比如从视频分割这个视觉经典问题讲起。分割不是最终目的,有多种可能的应用,而不同的应用对于算法精度和复杂度的要求是不同的。在Adobe的时候,我们希望分割结果能够直接应用在好莱坞的电影制作上,那么这个应用对于分割精度的要求就非常高。而全自动的算法无论如何总是会出错的。如何能在交互环境下有效的进行视频分割就成了一个有意思的问题,一方面要求算法能够在少量用户干预下快速收敛到精确结果,另一方面也要求系统提供一种直观和有效的交互方式,使得算法能够辅助用户进行高效的工作。”
在和王珏博士的交流中,“落地”这个词出现了好几次。“要做研究,首先要研究清楚自己”,王珏博士这样说。“研究分为很多种,有理论研究,基础技术研究,基于好奇心的探索性研究,也有面向应用的研究。每个人的喜好和特长是不一样的,应该选择适合自己的研究道路。我是一个比较纯粹的实用主义者,所以特别喜欢应用驱动的研究,通俗的讲,就是能落地的研究。”
在王珏博士看来,能落地首先是选题的问题。“伟大的实用技术都有一个最基本的要素,就是他们解决的问题一定是用户的刚需。要做能落地的研究,首选需要理解和关注用户的痛点。工业界实验室之所以能诞生很多实用技术,是因为他们更贴近用户,理解什么是真正对用户有价值的问题,而不是闭门造车。” 在进入 Adobe 规划第一个项目之前,王珏博士花了一个月的时间走访了多家使用 Adobe 产品的影视机构,观察他们的工作流程,倾听他们对现有产品的吐槽,这才将动态视频去背景这个全行业的痛点作为首要研究的课题。
落地是一个艰难的过程。在王珏博士看来,一篇优秀的学术论文最多只解决了一半的问题,在落地过程还有大量的细节难关需要攻克,而攻克这些问题既需要灵感和巧妙的解决问题的思路,也需要大量的工程经验与实践积累。有的时候,甚至需要全盘推翻学术论文里面提出的解决方法。在2016年做全景图拼接的边缘正则化这个项目中,王珏博士带领团队在研究了学术界最新研究成果后,提出了一种巧妙的替代算法,实现了计算速度百倍的提升,也使得这个研究成果成为今天 Adobe Lightroom 里面广受欢迎的新功能。
“有一次在一个国际会议上遇到一家大公司 AI lab的manager, 聊天的时候我感叹我自己参与的项目只有大概 25% 的成功产品转化率,那位 mananger 很惊讶,因为他们那里这个数字只有大概 10%。” 王珏博士未来的目标,就是将这个转化率翻一倍,希望能达到 50%。
新智元对50%的成功产品转化率感到好奇,王珏博士进一步解释说,要达到这个目标,核心还是在团队的构建。如果单单是把10个顶级视觉专家放在一起,那么这个目标是没法达到了。一方面是团队必须包含从初期研发到最终落地所需要的全部人才,更重要的一点,是每个团队成员都要认可研究落地这个共同目标,并为之努力。特别是对科学家来说,能够放下身段,倾听客户的声音,从客户需求中去寻找自己的研究课题,才能保证研究的实用性。这也是华为精神在旷视内部广受推崇的原因。
作为在计算机视觉技术上有着多年积累的资深研究者,王珏博士也与新智元分享了他对当下这一技术发展趋势的看法。
首先,今年的CVPR上,ImageNet大规模图像识别比赛被宣布终止,有专家解读说,未来业界会朝向视觉理解进军。那么,王珏博士如何看待计算机视觉的未来?
他说:“计算机视觉近几年发展很快,也有很多人预测未来的发展方向,我觉得他们说得都很有道理。我只想提一点,有的时候有必要跳出视觉的圈子,从大系统的角度来看视觉,才不会有“只缘生在此山中”的错觉。最近比较火的无人车和无人店就是很好的两个例子,两个都是系统工程,视觉是重要一环,但是如何将视觉技术和其他技术有效融合,才是其是否能成功的关键。”
从视觉本身这个领域来看,王珏博士觉得基于视频的视觉理解是一个重要的中长期方向。他说,现实世界中没有生物是通过一张静态图片来认知的,这个世界的很多规则和信息都包含着时序序列中。举个简单例子,你和一个人面对面交谈,他的复杂情绪变化你很容易从微小的面部表情感知。而拍一张图片,大家喊一句“茄子”就可以蒙混过关。对于视频的精细化理解,目前还处于起步阶段,还有很长的路要走。
计算机视觉技术在中国非常火热,有资料统计,几乎一半以上的AI公司都在这一领域发力,那么,在中国市场,这一技术存在过剩吗?
王珏博士认为,计算机视觉技术做的人多是因为它确实有很明确的应用场景,已经有很多成功的商业化样例。从这个角度来讲,他不觉得有过剩。他说,其实在计算机应用领域的研究上,产学研结合得非常紧密,如果有过剩的话市场机制会慢慢矫正。等到哪天学视觉的同学找工作比较困难了,那就是真正过剩了。
关于这一技术的落地,他认为,目前落得非常好的是人脸的识别和认证,这件事的价值非常大,可以对多个行业带来巨大影响,现在是安防和金融,即将是零售和服务业。无人驾驶是另一个很清晰的落地点。“相对于医疗,我更看好视觉在工业和农业机器人领域的落地前景。相对于给人看病,我觉得先给农作物看病更容易实现”,王珏说。
最后,王珏博士也与新智元分享了他对数据的看法。他说,大公司会通过开源技术,封闭数据来打击潜在的竞争对手。对于初创公司,如果没有明确在商业计划书里面提到数据来源我会感到不可思议。其中的一个方案是可以想办法造数据。对于计算机图形学来说,这是一个机会。以前图形学的渲染主要是给人看,未来会有越来越多的渲染是给机器看。一个有意思的问题是如何将一个渲染引擎嵌入到机器学习的框架里面,使得渲染引擎能够根据学习的需要动态生成数据。这方面学术界已经有一些尝试,他感觉潜力十分巨大。
文章转自新智元公众号,原文链接