连线Face++前方团队:COCO夺冠背后的细节,不是拼硬件这么简单

李根 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

昨天,量子位报道了中国团队再次称雄AI大赛,把谷歌微软和FB甩在身后的消息。

简而言之,在计算机视觉顶会ICCV 2017期间,中国团队在物体检测、人体关键点检测等竞争激烈的比赛中击败了谷歌、微软、Facebook等国际巨头AI实验室,7项竞赛囊获了5项第一。

其中,中国AI创业公司旷视科技(Face++)在MS COCO物体检测、人体关键点检测,以及Places物体分割等三项核心竞赛中拿下第一名。

在旷视前方团队归国之际,我们和其团队代表进行了一次远程连线,旷视研究院Lead Researcher姜宇宁和实习生肖特特,向量子位谈到了更多更直接的参赛感受。

领队姜宇宁

量子位:谈谈这次你们主要的算法框架使用情况吧?

姜宇宁:这次我们的主要使用的是“MegDT”(Megvii Detection)系统,这套算法是基于FPN类似的框架,然后加了很多我们的改进。

具体的贡献,比如我们是学术界第一个用非常大的batch size训练物体检测的团队,之前工作中用的batch size,比如何恺明的Mask R-CNN,Facebook的FPN,最高是16,而我们做到了250多。

量子位:为这次COCO比赛准备了多久?

姜宇宁:具体冲刺时间是2个月,不过真正的准备是从春节假期之后就开始的,前前后后有半年左右的时间,进步也很快,比如我们3月份的水平是35、35,但最后比赛的成绩达到了52,这半年内提升还是很大的。

量子位:主要围绕哪些方面进行了提升?

姜宇宁:除了batch size,还用多监督信号和各种各样上下文信息方面的提升。关于此次比赛所用的方法、技术,我们也会以论文的形式发表,应该在CVPR上就会有揭晓。

量子位:也有评论说你们这次胜利是拼硬件、堆硬件的结果,你怎么看?

姜宇宁:我打个可能不太恰当的比方。二战中美国和日本比拼,真正实力和最后比拼的就是工业生产能力的高低,结果反映的也是工业生产能力、综合实力的高下。

当然,比赛成绩对于我们而言,只是一个结果。就像我们在最后演讲时候说的那样:这次参赛让我们在快速迭代能力方面感触很深,不仅是如何拥有大规模计算力,而且更关键的是有能力把这些计算力充分用起来。

我认为不管是研究,还是初创公司发展,都要构建起这样的能力,可以把资源快速使用起来,形成更高效的创新。

所以拼硬件也好、堆机器也好,并不是一个所谓花钱就能解决的事情,而是有能力把这么多机器用起来、用好。

量子位:除了参赛选手的因素,这次你们三项第一的关键是什么?

姜宇宁:MegBrian和Brain++是我们此次取胜的关键要素,其中MegBrain是我们内部研发的一套深度学习框架,等同于Google的TensorFlow、Caffe2,不过研发的时间比他们要早半年。我们现在内部所有的研发,都是基于这套工具去做的。

量子位:这次比赛大家比拼的算法,都有公开的论文,你认为什么原因导致了最后结果上的差异?

姜宇宁:我觉得核心还是在于“变招”和“内功”,我是武侠迷,用武侠举个例子吧。

首先,降龙十八掌,丐帮历代帮主可能都会,但为什么萧峰打得更好?就是因为他在原来的基础上,创造了不少后招、变手。我想我们也是这样,根据公开的论文,进一步在应用中优化、改变,进行了大量的改变,导致实现不一样。

其次,哪怕是一模一样的算法,最后实现也不一样,这就是MegBrian和平台Brian++的能力,招式都一样,但内功不同,哪怕一模一样的算法,平台对多机多卡的支持更好,我们就能做出不一样的效果。

量子位:具体在这次比赛中,你们的“内功”是如何体现的?

姜宇宁:比如我们做了一个大的batch size,做了一个多机多卡,可以同时支持在32台机器上同时做训练,这是内功体现之一。

可能还需要再次强调下,这次比赛虽然我们几个选手站在一线,但没有背后的团队,肯定不可能达成目标。

我们只是最后被关注到的那几个进球的前锋,但这支“足球队”中的中场、后卫和守门员,都非常重要,缺一不可。

比如MegBrian的同事,对我们的支持也非常大,在我们比赛前,Megbrian团队告诉我们,他们完美实现了在一张卡上放更多的图,这让我们节省了近40%的内存,这才允许我们可以把batch size做这么大。一次训练,我可以放的图更多。

所以这样的能力,即便我们不参加COCO比赛,也能应用到其他地方——COCO只是检验我们内功修炼如何的一次实战比赛。

量子位:总体上你会怎么评价这次COCO比赛?

姜宇宁:三方面吧。首先,通过这次比赛,锻炼了队伍、检验了这套内功究竟修炼得如何,还有参赛同学的现场实战能力等,总体还是很欣慰的;其次,检验了MegBrian和Brain++的稳定性;第三,接下来可能要把检测做得更快更好,应用到更多产品吧。

量子位:COCO比赛的模型可以直接应用到产品中吗?

姜宇宁:还不行。

但通过这个比赛,我们得到了一些经验性的东西,比如什么东西是有用的,什么是没用的。这样的经验可以传送给离产品更近的部门。

另外,说到检测,可以看看Face++现在做的两个事情,一个是在移动端,做模型的小型化,我们的ShuffleNet超越了Google的MobilNets;另一个事情是Face++在做的MegEye-C3S智能人脸抓拍机,软硬件结合,人脸检测算法可以在FPGA这样的条件下跑起来,而且成本更低。

量子位:这次中国军团也是大放异彩,你们感受如何?

姜宇宁:中国参赛队伍的表现都很好,都在各项比赛中站在了前列。我认为这是好事,AI往前发展,聪明的人进来得越多,对整个行业就越有利、越有意义。

大三实习生肖特特

量子位:你这次以大三实习生身份参赛受到关注,你在旷视实习多久了?

肖特特:我到旷视实习马上满2年,2015年开始,那时候刚入大学不久,之前有一些编程方面的经验。

然后我的老师针对编程经验的同学专门设立了一个班级,有一些前沿知识的拓展,提供一些案例,其中就有Face++,当时我也好奇,这些理论知识,是怎么被在现实中应用的,所以找到了Face++进一步了解,当时参观和面试的感觉是:前沿、有趣和有价值,最后留了下来,开始实习。

量子位:目前为止最深的印象是什么?

肖特特:很多同学很聪明,都有很强的动手能力,他们想很多的问题都很透彻。

另外,干活靠谱,也是非常重要的因素,任务下来后全力以赴,不达成目标不罢休,所以结果都是相当好的,又快又好。

最后是对技术的追求,我们是一家以技术驱动做产品的公司。大家在一起很兴奋、快乐。

量子位:未来有什么规划吗?

肖特特:未来会去北美念博士。原本不想念博士,但最近两年的经历,让我觉得应该在某个方向上专研够深,而且已经在工业界待过,也有一些经验和启发,或许能够帮助我的科研方向上的突破。

最后就是可以好好思考下很多问题,不止学术问题,也包括对生活、人生理想的思考,如果是念博士,可能会比较时机恰当。

当然,因为旷视在北美也设立了研究院,所以未来也可能继续在旷视,即便这些都是未知数。

量子位:学业、实习、ACM,怎么平衡时间?

肖特特:我爱好比较多,什么都会接触一下,但主要是:1)找到生活中的平衡,找到优先级,ACM中我的队友也是我的室友,大家平常生活就会讨论,不会占用太多时间;2)大一大二以课业为主,其后就开始有针对性选择感兴趣、更进一步深入的事情,然后在公司加强自己的动手能力。

加入社群

量子位AI社群10群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot4入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot4,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

0?wx_fmt=jpeg

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态


你可能感兴趣的:(连线Face++前方团队:COCO夺冠背后的细节,不是拼硬件这么简单)