依靠算法、硬件等团队的努力,地平线已奠定了嵌入式人工智能全球领导者的地位。
智东西 编 | 四月
智东西推荐语:
地平线机器人公司是前百度深度学习研究院(IDL)常务副院长余凯博士的创业项目,目前专攻汽车汽车、机器人智能领域。
人工智能被认为将是横切360行的新技术革命中间力量,但似乎还是很抽象。余凯博士麾下,地平线机器人公司有一批技术牛人;透过三位技术大牛对AI算法的解读,可以一窥人工智能到底是神马,以及这些研究者是通过哪些算法来实现智能化的。
本文已授权智东西发布:
地平线联合创始人&算法副总裁 黄畅
初识人工智能应用研究
黄畅是一个非常有学术天赋的人,并善于将技术应用于实践中。他的学术生涯,一开始就和AI的实际应用问题相关。
大三那年,人工智能还处在一个低谷中。但一个偶然的机会,让黄畅跟随恩师艾海舟一起,加入到清华与日本欧姆龙公司的技术合作项目,研究图像识别领域中非常重要的人脸检测问题。当时的他还不知道,后来的研究成果成为了早期计算机视觉技术被大规模商业应用的成功范例,诞生了世界上第一款人脸检测专用芯片。
时至今日,通过“芯片+软件”的模式,黄畅的这项技术已遍布生活中的各个角落,从数码相机、智能手机,再到诸如苹果iPhoto这样的软件,占据了大量的市场份额。
这项技术实现了我们如今随处可见的镜头自动人脸对焦和曝光肤色的智能调整功能,完全改变了自相机诞生以来的人物拍照方式。这很可能是嵌入式人工智能在工业界应用的最早期范例之一。
当时,人工智能方面的大多数技术还很难在工业界找到适合的发展方向,因为技术还不成熟,大多数都还停留在实验室阶段。甚至到黄畅博士毕业的时候,人工智能行业形成规模仍然是遥遥无期。很多从业者都觉得这行“不靠谱”,纷纷转到了互联网或者金融行业。
但那次项目的成功,是整个人工智能行业在实际应用中迈出的重要一步。这个成功的范例证明了人工智能在应用方面可开发的巨大潜力,让人工智能开始受到重视,并得到越来越多的投入。黄畅通过这个项目,验证了自己的诸多想法,并对人工智能的未来愈加洞悉。
十年轮回,持续深耕
此后十年,黄畅在人工智能领域持续深耕:凭借自身努力和出色天赋,他用比别人更少的时间读完清华硕博;紧接着又受邀去美国南加州大学跟随Prof.Ramakant Nevatia攻读博士后,他创造性的将物体检测、基于机器学习的数据关联和图模型方法用于多目标物体跟踪问题,使其效率大大提高,在学术界产生很大影响。
随后黄畅加入地处硅谷的NEC美国研究院,从事大规模分布式并行机器学习和深度学习方法的研究。NEC美国研究院是人工智能早期重镇,大神云集,包括支持向量机的首位提出者Vapnik和人工智能三巨头之一的Yann LeCun都曾在此效力。这段工作里黄畅收获了两个“生命之重”——真正以工业界的视角对人工智能进行深入思考研究,以及结识了亦师亦友的余凯。
黄畅是幸运的,在学术生涯最重要的阶段里得到了多位顶尖学者的相助,获得了快速且巨大的成长,为他以后的发展打下了坚实的基础。
2013年,黄畅参与组建了由余凯创办的百度IDL,任高级科学家、主任研发架构师。在他的带领下,图像技术团队做出了全网人脸图像搜索、PK大咖、全网相似图像搜索、自然场景文字识别、百度移动图像搜索、图片凤巢等许多重量级的产品。
除此之外,他对技术远景也有着精确的预判力。2007年他离开清华前夕,和其他同学谈论未来行业发展趋势时曾说过,“这个行业在5-10年的时间里一定能取得重大突破、得到广泛应用。”这句预言也在今天得到了很好的印证——从2012年开始,以深度学习为代表的一大批人工智能得以复兴,甚至这一年被称为“人工智能普及年”。
深度学习中,被大规模用于图像识别的卷积神经网络
十年深耕,十年轮回。黄畅在算法方面有了更加广阔的视野,更成熟的思想。他敏锐的意识到,未来将是一个全智能万物互联的时代,所有的终端设备都需要一颗智能的“大脑”,嵌入式人工智能将扮演最核心的角色。而高性能、低功耗的、可真正解决实际问题的算法是其中极为关键的一环。
因为理念上的高度一致性,他追随余凯参与成立了地平线,再次从事嵌入式人工智能的应用研究,致力于算法芯片化。但这次,他将站在更高的起点上。
算法要用来解决实际问题
在加入地平线时,沉浸人工智能领域十几年的黄畅,已经形成了一套非常值得人们学习的AI算法研究价值观,那就是:算法研究的根本目的是用来解决实际问题,它是工具,而非目的。这也是整个地平线算法团队所坚持的理念,故而在很多公司很多团队还在算法数据集里争着“刷第一”时,地平线的算法研究方向已经在奔向下一个目标了。
基于这些思考,黄畅高瞻远瞩,带领地平线算法团队在许多重要的算法研究方向上进行了极具创新性尝试,包括基于贝叶斯网络的推理系统和面向感知-决策-控制的增强学习系统等。这些前沿研究在黄畅的推动下,极大的拉近了算法和实际应用之间的距离,使地平线的算法研究发展到一个新阶段。
具体来说,他认为,如果想让算法能真正的解决实际问题,在考虑算法之前,必须对这些复杂的实际问题进行正确的建模(formulation),选择甚至定制合适的系统(system),基于大量数据(data)驱动,结合模型(model)和知识(knowledge)的表达来解决这一实际问题。脱离开这条轴线,我们做的算法将不具有现实意义。
现在许多人做算法,往往忽视了要解决的问题的本质,没有正确的抽象和建模,也缺乏一个坚实的系统去承载并做可持续的积累。对于这种现象,他一针见血的指出:这样做通常会形成一个过于简化的建模(即采用单一的系统和算法,去解决实际上非常复杂的问题),必然导致算法难有实质性的突破,更无法应用于真正的产品中!
这说明黄畅不是一个急功近利的人,相反他非常重视基础,能一眼看到别人发现不了的问题甚至“隐患”;他对算法研究所走的每一步都洞若观火,并拿其与实际问题不断比对,是一个非常出色的算法领导者。
针对“过于简化的建模”问题,黄畅还举了一个例子。在自动驾驶领域,有些公司号称在使用深度学习做端到端的训练,直接学习从传感器的输入到控制器(刹车、油门、转向等)的输出的函数映射。我们无法对这种黑盒模型进行有效的分析,在使用中出了故障很难搞清楚究竟是什么原因造成的。而自动驾驶是一个对可靠性要求极高的领域,需要考虑许多长尾条件下的corner cases。这种建模方式没有对自动驾驶这个问题做出正确的形式化描述,而在此基础上构建系统并研究算法,效率十分低下甚至徒劳无功。
基于深度神经网络增强学习的理性决策
以上这些算法思想都是围绕“算法能真正解决实际问题”展开的,但只有“内容上的可行”还不够,还需要“形式上的落地——嵌入式人工智能”,即为算法研究增加一个新的思考维度——和芯片更好的结合。
黄畅非常自信,他说,现在应用于自动驾驶等场景的主流GPU架构动辄成本上千美元,能耗几百瓦,根本不可能大规模商用应用起来;但地平线的产品将实现高精度、高效率、高吞吐量、低功耗、低成本的特点,可以真正应用于实践。这是地平线很早就开始的研究工作,并奠定了地平线嵌入式人工智能全球领导者的地位。
罗恒有些微胖,时常自嘲“要减肥”,藏在方框眼镜之后的一双眼睛睿智有神。
作为一名算法工程师,他的生活常常处于高速的脑力运转之中,这让他的每一秒时间都显得宝贵,走路疾步带风。
罗恒,负责模型压缩和加速方向
2011年,罗恒在上海交通大学博士毕业后,跟随Yoshua Bengio从事博士后研究。回忆起自己走上深度学习的历程,罗恒抚了抚眼镜,“那是段很有趣的经历”,似是做好了讲故事的准备。
师从AI大师Yoshua Bengio
研究生时,计算机专业的罗恒偶然了解到机器学习的知识,惊觉十分有趣,由此开始持续关注机器学习方面的学术动态。博士期间,罗恒看到了Yoshua Bengio教授关于深度学习的技术报告,尽管当时还不太懂深度学习,但他依然强烈地感受到,这可能机器学习接下来最大的突破。
“看Vapnik的书,觉得我自己没赶上这波(研究热潮),我就想,下一波是什么?当时就觉得深度学习,应该是下一波学术上的热潮,我就这样开始走上深度学习的研究之路。”
罗恒的博士后导师:Yoshua Bengio
Yoshua Bengio教授和Geoffrey Hinton、 Yann LeCun并称为当今人工智能“三巨头”,他们一同缔造了深度学习复兴,实现了人工智能的第三次研究热潮。他带领着一批极其优秀的学生开展机器学习的研究,在整个学术领域有着极大影响力(Google Scholar在2016年中期发现超过40000篇引文,H指数为84)。
Yoshua以严谨的风格著称,对于招收弟子,条件更是近乎苛刻,要想入他门下,历来十分困难。最早见Yoshua的时候,罗恒凭借自己的一篇深度学习论文,就敲开了这位大师招收门徒的大门,这篇论文就是《同时学习类别相关和类别无关特征》。
在这篇文章里,他的模型相较Hinton组相似的模型,在图像识别上具有更高的准确率,同时模型的大小只有Hinton组模型的四十分之一。这篇论文受到了Yoshua Bengio的极大认可,在和罗恒面谈之后,Yoshua将他收入自己门下,带领他前往加拿大从事博士后研究。
在Yoshua的团队里做研究是种怎样的体验?大概就是可以和组里的牛人们思维碰撞,比如同门师弟、《Deep Learning》的第一作者Ian Goodfellow,他总是愿意分享他那些天才的点子是怎么来的;可以和常来访的杰出的学者沟通请教,比如罗恒有机会向Hinton演示他的实验结果,请教问题;更能早在2013年2月欢迎AlphaGo 程序的创造者DeepMind的来访,听他们讲关于实现人工智能的计划。
这样的研究氛围对罗恒影响很大,以至于回国后的他也渴望有一个地方能有这的氛围和对待学术及应用的态度,幸运的是,加入地平线的罗恒没有失望。
压缩和加速模型,实现嵌入式AI
博士后毕业后,本可以留在加拿大的罗恒却选择了回国发展,因为他看到,国内深度学习研究在工业界开始应用,这是难得的机会,可以将自己所学应用于实际,“我发现自己不但赶上了研究上的一波热潮,还赶上了实用的一波的热潮。”
罗恒深知深度学习下一波发展是从云走向端,使得各种智能模型在我们的身边唾手可得,这与致力于研发嵌入式人工智能的地平线的理念相契合。于是,2016年他加入了地平线,发挥所长,专攻神经网络模型的压缩和加速。
地平线要做的是高性能低功耗的IP开发,提供端到端、软硬结合的嵌入式人工智能解决方案,推进嵌入式人工智能产业生态链的搭建。这将让智能汽车、智能生活这类终端设备,能够在不联网的情况下也具有深度学习和推理决策的能力。在这个过程中,算法的模型压缩和加速是技术实现的必要一环。
要让嵌入式人工智能得以实现,让产品实现“高精度、高效率、高吞吐量、低功耗、低成本”的目标,算法的模型就必须要小,速度要快,并且要和芯片结合。从神经网络的角度来实现这样的目标,正是罗恒最沉迷也是最擅长的领域,也是他目前在地平线主要负责的事。地平线为他提供了充分的研究空间,让他能够带领一批优秀人才在深度学习领域深耕。
乐为人师,重视Trick素养
在地平线,大家都称罗恒为“罗老师”,这或许也是受到他的恩师Yoshua Bengio的影响。Yoshua Bengio是人工智能三巨头当中唯一一个依然坚持在学术岗位的深度学习大师,他投入在学术界,进行纯粹的学术研究,带头培养成千上万个科学家和工程师们。
罗恒从恩师那里传承了为人师表的精神,除了致力于应用研究,他对于人才培养也十分看重。在地平线,实习生的培养采用导师制,作为深度学习的mentor,罗恒也很好地把在老师那里体验的氛围带到了这里。
对于自己带的实习生,罗恒善于组织他们进行讨论和学习,悉心解答他们的疑惑,尤其注重他们Trick素养的提高。
“刚开始进入人工智能行业的同学往往觉得研究无从下手,虽然有很多理论的文章,但似乎对实际用处不大,常常感到迷惑。”和其他人埋头理论不一样,罗恒擅长带着他们转换思路,从Trick入手,利用这些Trick,更好地带领新人解决实际问题,比如利用训练好的神经网络对数据做采样,更快发现数据中的问题。
“机器学习的很多研究都是从理论出发,但实际上这样很难去描述一些现实的问题。而Trick是一种实用主义的方法,这从研究的角度看上去可能显得不那么优雅,但在很多实际问题上,忽视Trick都是不明智的。”Trick对于所有人来说,都是一种解决实际问题的好方法,对于刚入行的同学来说,更是如此。
除了自己带的实习生,罗恒也在其他方面扮演着导师的角色。在地平线举办的“大牛讲堂”活动中,他就曾担任过嘉宾导师,他的循循善诱和耐心教导,给参与活动的同学留下很深的印象,学生们夸他严谨认真又不失亲切,回答问题深刻却也易懂,受到广泛好评。
招纳新人,学术应用两手抓
在人工智能研究的大潮中,算法人才从来都是紧缺资源,罗恒一直期盼着有志同道合的人能够成为自己的伙伴,而他也会像自己的老师一样,带领着新生力量,投入到深度学习的研究当中。
这次的绝地武士实习生计划,模型的压缩和加速方向招收3名实习生,罗恒是mentor。他感到这是一种奇妙的转换,在六个月的时间里,他将带领实习生们共同追求学术上和应用上的目标。“实习生来到这里,和我们一起写代码,做实验,验证各种想法,有比较好的结果就写论文,同一个课题下,我们也会带领实习生尝试多种解决方法,在试错中获得进步。”
罗恒一直在等待着。
黄李超:让算法成为一种生活方式
探索物体检测前沿算法
工程师对自己设计的算法总是怀有某种特殊的情感,正如Alphago之父哈萨比斯在Alphago战胜围棋高手李世石时兴奋不已一样,谈及在物体检测领域颇有名气的DenseBox算法的开发,黄李超似乎也有说不完的想法和故事。
黄李超,负责目标检测和图像分割方向
设计DenseBox最初的目的,是用深度学习做物体检测,这在当时是十分具有前瞻性的想法。虽然深度学习在2013年左右就被应用于物体检测领域,但其代表性的算法架构却一直不够直接和高效:早期基于CNN的物体检测方法OverFeat,由于性能和效率问题一直没有得到很好的应用。后来Ross Girshick等人开发的R-CNN算法,虽然在一些数据集上有了更好的表现,但它的缺点也显而易见的——region-proposal通常很多,直接用CNN分类非常耗时;同时,训练需要多个步骤,不够直接。
在大家仍选择沿用R-CNN方法亦步亦趋时候,2014年冬天,还在百度IDL实习的黄李超不满足于跟随其后,决定开发一套新的物体检测算法。更早的OverFeat检测方法给了他启发:既然在图像上卷积等价于使用滑动窗口分类,为什么不直接使用全卷积网络做整图的物体检测呢?因此,富有创造力的他基于自己的理解,开始了这项前人少有的探索,并为之一往无前。
创造之神果然没有辜负这个年轻人的努力,他做到了,并不断完善原初的设计。抛开固有的束缚,他以先行者的敏捷,首先设计出一套端对端的多任务全卷积模型,直接回归物体出现的置信度以及它的相对位置。同时为了能够更好地处理遮挡严重的物体,提高小物体的召回率,他在检测的网络中引入了上采样层,并融合浅层网络得到的特征,得到更大尺寸的输出层。为了对训练样本进行筛选,降低误检,他还率先使用了Online Hard Negative Mining的策略,这在后来的一些论文中被证实卓有成效。
目标检测示意图:输入多尺度图像,经过CNN处理,输出目标框 引自:DenseBox: Unifying Landmark Localization with End to End Object Detection
后来,追求完美的他还对DenseBox进行了一次关键性的优化,让原来的检测网络引出多个分支,大大降低了图像金字塔的规模。这一优化,使得在相同计算量的模型下,原本在GPU上耗时数秒的720P图像的人脸检测,不到一秒即可完成。如果用更小的模型,在CPU也可以做到每秒好几帧的速度。在算法的计算中,时间就是生命,一秒的进步都凝结着无数的心血,而数秒的前进则意味着质的飞越。这一改变成为推动DenseBox落地的“临门一脚”,让它真正在产品线上能够可用。
DenseBox最先应用在人脸检测上,表现出了很好的性能,后来开始逐步应用于车辆检测等方向。而优化后的DenseBox更是被广泛应用到IDL的相关项目组,如人脸和OCR(光学字符识别)项目,极大提高了检测的准确率,至今仍是百度无人车的重要算法之一。加入地平线后,DenseBox在各个平台上衍生出了多种不同性能和速度的模型,也成为了地平线的核心算法。
来到地平线之后,黄李超延续其朗逸有为的风格,在工程方面也做出了建设性的成绩。一个月内,他独立搭建了一个跨平台的轻量级CNN预测库,性能达到开源深度学习平台Caffe的两倍。同一个月内,他在ARM平台上进行的定制性优化,较Caffe速度提升了2-6倍。同时,地平线初期落地的所有模型,包括人脸检测模型、人脸属性和关键点定位模型、以及ADAS方向的车辆和行人检测模型,也都由他一手训练。由于经验丰富、工作高效,他用短短一个月的时间实现了别人几个月都难以达成的目标。今年在地平线嵌入式人工智能战略的关键一环中,黄李超作为核心成员参与了地平线第一款芯片CNN模块的设计和算法验证。
纵观黄李超在人工智能领域的探索历程,DenseBox开发、FDDB/KITTI榜首、深度学习预测库、业界顶尖、地平线芯片,这些似乎都可以成为他身上亮闪闪的标签,却都无法简单地定义这个一直活跃在物体检测领域前沿的探索者,因为这个眼睛里带着光亮的人,有太多的想法和探索的能量,有太多的努力和锐利的锋芒,因而让华丽的辞藻黯然失色。
科技剑客,随性与执着
采访黄李超最大的感触就是他的随和与坦然,讲起自己的经历,他时常低头一笑,又闲闲道来。他坦言自己的随性,当年DenseBox虽在2015年初就被早早地开发出来,这一成果比同一时期的Fast(er)-R-CNN系列提前数月,但相关的论文直到9月才在arxiv上发布,究其原因竟是他懒于动笔!
“当时懒得写,就没有写,直到不得不写了,才写了一篇。”虽然DenseBox落地之始就在权威检测数据集FDDB、KITTI中排列榜首,这一荣誉一直是国内多家公司如百度、小米等争相炫耀的筹码,但性情淡泊的黄李超却显然并不想多谈。“这不过是个测试性能的数据集而已,证明算法性能好就够了,盲目的刷榜并没有意义。”
DenseBox在KITTI上名列榜首,性能远超faster-RCNN和Regrionlets
但是,他的随性仅仅适用于他的人生观,他对工作的热情恰恰相反,以执着勤奋而著称。在开发DenseBox的时候,同期几乎没有可以参考借鉴的工作,因而所有的内容和算法都需要根据自己的直觉去判断,“需要不断的尝试,如果效果不好,就要分析它的原因。只要认定了这个方法可行,就绝对不能放弃。”正是他的坚持让DenseBox在检测算法领域立稳了脚跟,通过不断的更新和改进,它仍傲踞地平线的核心算法之首。
他的随性和执着构成了他剑客般的性格,对人生随性而坦然,对技艺执着又精益求精。在科技的时代,他就是挥舞锋芒、披荆斩棘的剑客。
算法,应当是一种生活方式
“未来的目标嘛,我希望做出更好的算法,也让自己的算法能够在更大的平台上使用,让自己的成果惠及更多的人。”谈及未来的愿景,黄李超如是说。最近二十年来,我们分别经历了PC互联网、移动互联网的热潮,如今这些热潮已接近尾声,而下一次热潮已紧随而来——人工智能。随着万物互联时代的到来,端上的人工智能将带来巨大的市场机会。尤其是在自动驾驶和智能生活领域,存在于每一个智能设备里的AI芯片会是重中之重。
而算法在其中扮演的角色就是,和芯片完美结合,提供软硬结合的嵌入式人工智能解决方案,也以此获得重生和更广阔的应用。这也预示着算法将在不久的未来,潜移默化地成为我们的一种生活方式。
智东西招聘
在这里与下一个BAT创造者交朋友!
五大智能领域记者/编辑/实习生
职位详情回复“招聘”查看
欢迎自荐/推荐,简历至[email protected]