原创:谭婧
林达华,现任MMLab掌门。MMLab是香港中文大学多媒体实验室,也是港中文-商汤联合实验室。掌门的大部分时间花在全球多个实验室里,所以北京的记者想面对面采访,未必是件容易的事。
最终,我们约见在人工智能(AI)界武林门派相聚的大场面——世界人工智能大会。
“全球智能领域最具影响力的科学家和企业家相聚于此地”的俗话,就不必提了。
拜见武林一流门派掌门人,脑中会有“作拱手抱拳状”的想法。谁知,他几句中英文混搭的表达,马上把我拉回到AI的世界。林达华说话间始终带着一种professor(教授)上课时特有的细腻与耐心,仿佛既可求教,亦可与其争论。
修炼上乘武功,需入名门,拜名师。在学术界,地势高是一种相对优势,虽然不是绝对优势,但是,研究者所处的平台往往能起到决定性的作用。在很多怀抱着AI成才梦的学生眼里,MMLab是名门,林达华是名师。
今日的老师,亦是昨日的学生。
时间拉回到2012年,林达华获得美国麻省理工学院计算机科学博士学位。“当初为什么不留在美国?”他应该不是第一次被问到这个问题,而且,他也已经做出了自己的选择。
他笑了笑,给出了一些细节原因。
他说:“中国内地和香港都有很好的环境,加入MMLab可以迅速地投入到研究工作中。香港中文大学和汤晓鸥老师都给了很多支持。”
可见当年,他选择研究平台的时候,没有太多犹豫。
“在麻省理工求学最大的收获是什么?”
他的回答是,接触到不一样的科学文化,学习到不同的研究思维。
他又强调:“研究创新讲求的是思维碰撞,我格外看重。”
这是一个需要被格外重视的要点,也是练功的不二法门。
他告诉我,碰撞,从而得到很多创新成果。这不仅是他的体验,也是汤晓鸥老师的理念。既然重要,他就进一步解释了“碰撞”。
他说:“汤教授也曾讲过,新思想有赖于碰撞与交流。碰撞出来的想法对实验室做创新很重要,使研究者站在世界前沿。”
回忆起在香港中文大学的研究生时光,他谈道:“早期的人脸识别还没有用到深度学习技术。我在麻省理工之后的学习,更偏统计学习与概率建模。回到香港中文大学任教时,正好身处深度学习的浪潮中,做的是深度学习。”
一个周期,往往是一个研究人员的半辈子,机会留给有准备的人。
林达华有一个很高的起点,而他继续在这个高起点上积累,尽全力把学术研究和学生们推上一个新高度。
五年弹指一挥间,从2015年到2019年,MMLab累计拿下99篇CVPR,38篇ECCV,51篇ICCV,9篇NIPS。
如今的MMLab不再是一个武林门派,而属于一派武林联盟。
2019年是一个里程碑。
这一年,商汤科技及他们与多所全球知名学府共建的联合实验室,总共以57篇论文入选ICCV。算上同年CVPR被接收的62篇论文,累计有119篇论文入选全球两大计算机视觉顶会。
人们常说,一切科研成绩的背后,都是刻苦的钻研、扎实的训练。其实还有更重要的后半句,这是更值得探索的关键——“什么是有效的训练?”
有了《九阳真经》,也得讲究如何以正确的法门练功,走火入魔了怎么办?
“做research(研究)最重要的是什么?”
林达华说:找到真正的挑战在哪里。
迈入MMLab,林达华希望学生,特别是刚进入学术研究领域的学生能够深刻理解的第一个问题是:做research(研究)最重要的是什么?
“答案并不复杂。”林达华说。
“做研究最重要的是,找到真正的挑战在哪里。很多研究人员在实验室里面拍拍脑袋,做一篇论文。虽然这个论文可能很成功,但是没有什么应用的价值。因为学术界想象的问题和产业落地需要解决的问题,它们之间有很大的gap(鸿沟)。”
他停顿一下,强调:“研究人员在AI落地的过程中接触到了真实的需求,从而发现学术界根本没有注意到的事情。”
“MMLab的学生,不发非顶会论文,不发没有突破的论文。”
这句话代表着林达华对学生的期望与要求。他不想让学生在学术的路上有“另一种”学术思维和习惯。
在他的世界里,优秀与非优秀不是两个不同的标准,而是在做两件截然不同的事情。
论文对学者的学术高度有决定性意义。但是,从林达华对学生的栽培,从他对学术教育的理解来看,他的汗水不会浪费在——仅仅写出“漂亮”的论文。
他要的是高质量的创新,这是MMLab文化中更深层次的动机。
一心只想打败别人的,会成为武林高手。一心思考创立武功门派的,会成为武林宗师。
只要稍微打听一下,就能得知,今日的香港中文大学MMLab绝不缺生源,很多基础扎实、成绩优秀的学生慕名而来。
林达华这样描述刚刚迈进实验室的学生,“很多学生第一年来MMLab,有一定的知识储备,但是对如何做研究还处于起步阶段。”在他眼中,每个学生的可塑性都非常强。
他直言:“MMLab对学生的期望是,毕业之后独立开创一个方向,带一个团队。” 比如他看到,有不少他的学生毕业去了商汤就能直接lead(带)团队。
“进了实验室之后,学生会接受什么样的训练与培养?”
也许是第一次被问到这个问题,采访时,林达华静静地思索了一会,拿出了一个“三阶段理论”,让我不得不迅速进入“记录练功要诀”的状态。
他强调,MMLab没有独门培养秘籍,恰恰相反,这是一个AI领域的研究者必然经历的三个阶段,也是人才培养的规律。
第一个阶段,懂得怎么做一个project(项目),突出一个“领”字。
他会告诉学生,要做一个什么项目,往哪个方向探索,技术路线是什么。学生会在他指导之下,在师兄的协助之下,逐步自主完成一定数量的项目。
在一开始的时候,他会与学生一起仔细地讨论“教授的指引与期望”。林达华强调,在这个过程中,绝对不会强迫学生去做不愿意做的事情。他在说“绝对不会”这四个字的时候,特意加了重音。
因为,学生要做的事情,虽然是紧跟教授指引,但是学生必须提出自己的想法,明确自己感兴趣的地方。
他再根据学生的想法,围绕这个问题在学术上是不是真的有价值,朝这个方向做下去会不会遇到一些根本性的障碍等问题来来回回沟通。
这个过程可能会用一个月的或者更长时间。他认为,过程本身就创造了教学的意义。
他强调:“目的是教授领着学生找到一个长期深入做下去的学术方向。”一开始,他可能会给学生较多的指导,观察学生,了解学生一步一步学习适应的情况。学生在这个阶段会在有指导的情况下,逐步开展研究。
此时,林达华第二次强调,MMLab的学生不会发没有突破的论文。因为目标定的低,是浪费学生时间。
他认为,思维方式和研究习惯的养成异常重要。如果从一开始就定位发非顶会论文,会养成“另外一种”思维方式,这种思维方式,不在实验室培养体系之内。这是从学生需要的视角再次去解读为什么不发非顶会论文。
第二个阶段,突出一个“独”字。
林达华说,他会和学生一起定一个方向,但不会有细致入微的guidance(指引)。学生恐怕需要自己找资源,大多数尝试甚至连数据集都没有。
在林达华眼中,MMLab在很多比赛中名列前茅,那只是对学生的锻炼。
他自信而又坦诚地说:“我们已经完全超越了‘刷榜时代’,锻炼学生用AI解决问题的能力,在我给他们制定的第一阶段的长跑中就已经完成了。”
第二阶段的重点任务是开拓一个方向。
“我们会讨论这个方向的目标是什么。可能连数据集都没有,那就得自己建,把算法做出来,设计实验,坚持到完成。这个时候,学生需要养成独立完成一个高水平的项目的能力。”
林达华在描述“科研探索者”一种拾阶而上的人生之路。多少练武之人一步一个石阶的攀爬到“壁立万仞”之下,抬头一望,四字凛然。
他继续介绍,第三个阶段,也是毕业前的一个关隘,突出一个“闯”字。学生自己找到研究方向,独立产生研究思路,坚持到底。
他再次强调了一下重点:“自己找挑战,自己找问题。”
“踏踏实实地经历以上三个阶段,基本意味着毕业后可以独挡一面。”这是林教授的教诲,也是他心之所愿。
“学生个人的情况会有所不同,有的偏思考型,有的偏实践型,有的偏工程型,我希望每个学生毕业后都会形成一条独具个人特色的研究路径。”
他又补充道。
“独具特色”一词被林达华格外看重。从某种程度上讲,这个词里包含一种“高质量创新”基因。他言语中透露出那种对学生与生俱来的特色的珍视。
“无论学生是偏好研究还是偏好工程,都会找到自己的位置。有的学生毕业后愿意去商汤科技,因为今天的商汤科技已经是一个计算机视觉领域的大平台。有的学生愿意去美国继续深造。”
林达华乐意看到种子发芽,拔节成长,至于选择未来奋斗的土地是热带雨林,还是高原盆地,他不会给限制。
他的任务是把学生培养出来,并带有MMLab的基因。
从培养一个个,到培养一批批。
汤晓鸥教授于2001年创办了MMLab,十几年过去了,它早已孕育出别具一格的研究文化。“我们如何理解MMLab的团队文化呢?” 林达华答道,“我们当然有自己的文化。”但是,思考了一会。
他说:“这也是我第一次总结实验室的文化”。
第一、尊重。
尊重学生的创新想法。这里强调的不是分配研究想法,我们的角色是导师(adviser),这个角色的重点是引导学生形成研究的想法。
教授并不会在一线接触数据和代码,如果随便地指手画脚很可能会干扰学生的创新思维。
学生需要自己找到真正有价值的挑战。当学生形成想法,他会抛给学生第一个问题——为什么这个问题之前没有解决?
休想让他直接告诉学生,你该做还是不该做。
这个问题可能做完文献综述之后,也未必思考得清楚。文献综述只是回答这个问题的其中一个环节。
为了解释这个关键问题,他马上举了一个例子,像极了课堂上老师回答学生的追问。
“以时序算法为例,学生可能会说,以前的方法受制于十秒内存的限制,处理几分钟或者更长时间视频分析遭遇到困难,我要研究的问题和前人研究的有何不同之类的介绍。”
林达华说,这个问题不能让学生僵化地回答,他会要学生尽量具体地回答,研究的问题和论文A有哪些不一样,和论文B有哪些不一样。”
第二,价值。
假设这个研究已经做出来,价值在哪里?
他强调不局限于学术价值,而是给人类社会带来的价值。
“还是以时序分段网络为例,解决这个问题,就意味着拓展了AI处理视频时长的能力,以前处理不了的视频,现在可以通过技术手段处理了。”
他借用具体的研究来解释思考问题的方式。
“如果要在学术上有所行动,首先要回答清楚这两个问题。如果这两个问题能够处理好的话,需要研究的问题实际上就已经成立了。”
他强调,一个学术问题,不需要一堆问题来定义,一到两个根本性问题就能够将这个问题定义清楚。Adviser(导师)这一角色重点是在引导学生创造有价值的想法。
教与学,答与问,日日修炼,夜夜参悟。
讨论中的林达华 摄影:谭婧
MMLab与AI独角兽商汤科技如何合作?
“在回答问题前,我必须说,MMLab作为研究机构,与商业机构比较起来,有着完全不同的使命。使命决定了目的地。”他先强调了这一句,才开始回答我的问题。
这代表着,他对自己所领导的研究机构的使命理解得非常清晰,是一个既熟于思考,又想得透彻的问题。
林达华说:“商汤能与很多不同的行业、对AI有不同需求的伙伴接触,积累大量落地经验。这些经验对学术研究者非常宝贵。
MMLab会和商汤研究院,日常非常密切地交流。面对实际问题,商汤研究院先上,而面对更基础性的问题,研究院会‘交棒’给实验室。”
“交棒”的背后是充分的信任。
一个动作,两层内涵。
交棒的人完成了自己的任务,抵达了自己的终点。接棒的人接受的不仅是工作,更是信任。
“拍拍肩膀,哥们儿,以后靠你了。”
接棒人,上场了。
背上是责任,也是期望。
“基础性问题以研究课题式项目管理的形式来推进。实验室不能保证研究过程中能够100%把问题解决掉。”
他表达的时候,神情理性且坚定,又轻轻地摇了摇头,强调了“研究的宿命”:“因为做研究没有100%的保证。没有。”
“但是。”他的脸上露出了笑容,接着说道:“实验室在研究这个问题的过程中,会提出很多非常有价值的思路。不仅如此,这些思路,研究团队会做出实验,做原型出来。”
接着,他又直接地表达了商汤和MMLab的关系,面容上,没有任何意欲婉转的意思。
“商汤是一家商业机构,要考虑营收,可能有些问题不能拖个一年半载。
这时候,实验室的优势就会有所发挥,因为实验室有很大的空间去做这件事,会发展出更加长期、更加创新的解决思路。商汤与MMLab有交流机制,保证‘发现问题,解决问题的闭环’不断地循环。
实验室创新的思路会在最短距离变成产品,而市场也会给与实验室最直接的反馈。”
在林达华看来,产学研的呼声喊了很多年,但是,很多机构间的合作链条并不顺畅,而商汤和MMLab的合作自然而又紧密。
研究资金,是一个颇有些引人注意的问题。
林达华清楚地介绍了研究资金的两大来源,他说道:“一方面,香港中文大学给实验室很大支持,教授们无需忧心费用,可以非常专心做研究。
另一方面,商汤科技和香港中文大学有研究投入协议。此外,大湾区AI相关产业发展迅速,政策支持。对实验室来说,费用上压力小,视野更高更广,更专注长期、专注创造性,更有能力把工业界的问题解决彻底。”
顺势,他举了两个例子:
第一,如何处理比标签数据大百倍、千倍的数据?
计算机视觉研究会涉及到海量数据,其中很多没有打标签,而传统的深度网络是有监督学习的。
那么,如何处理比标签数据大百倍、千倍的数据?
这个问题被交到了MMLab。
众所周知,模型质量和性能与输入数据有很大关系。如果没有有效的聚类方法,送数据进去反而会使模型质量下降。需要一个有效的,过上亿级别的数据进行聚类的方法。
MMLab最近有2-3篇论文都是关于这个方面。一种有效的做法是把大规模的数据聚类,之后的每一类看成其中一个不同的人。但是如何在海量数据中高效高质量地聚类是尚未解决的开放问题。
这个问题不是对具体某个产品提升,而是研究团队抽象出解决方法,去解决一个根本性的问题。
好消息是,使用了神经网络进行聚类,对商汤科技所有需要用到海量数据的产品带来了性能上提升,很多业务线都用到了这个解决办法。
第二个,视频理解工作。
在2013和2014年之前,大部分视频理解的工作都是处理10秒以内的短视频,用机器分类短视频的办法距离实用还非常遥远。即使卷积神经网络提出之后,因为硬件的限制,还是没有办法处理长视频。
MMLab传统分析一段视频,每隔五帧取一帧。GPU放不了太多帧。但是,工业界的实际情况是需要处理相对长时间的几分钟的视频。在这种背景下,MMLab在2016年,提出时序分段卷积网络。
“时序分段这个方法不再是五帧、五帧去取。实验室将整个视频按照语义,每隔五帧分成若干个段落。这样解决了两个问题。每隔五帧取,重复性高,重复计算量大。如果间隔较远才取一帧,时间尺度又会变长。
团队决定向着较远的取帧时长努力,因为重点是避免重复的计算。
解决问题的思路并不复杂,但是从根本上和大家的思考方向不同。别人都在想着怎么改善网络结构,但我们改变了采样的方法。
这个方法让实验室取得了当年ActivityNet比赛的冠军。同样也是好消息,从2016年起,这个论文提出的方法就已用在商汤的各种视频分析的业务线产品中。”
林达华想用这两个例子来对比高校实验室和企业研究院的区别。高校实验室基础研究空间大,基础性研究一旦成功,杠杆效益巨大。
他对实验室有能力把工业界的问题解决得更彻底,非常有信心。
校企合作激励AI学者向本质问题挑战,而这些本质问题恰恰不是一个纯学术实验室环境能遇到的。
本质问题非常顽皮,常常生于工业界。所以,很难下一个单一的结论,是学术界带动了工业界,还是工业界带动了学术界。
按照林达华的观点,“正反馈的闭环”是最佳解读。
一名毕业于北京大学的硕士研究生同学告诉我:“申请博士的时候MMLab一定会在首选实验室清单中,现在MMLab享誉全球,实力堪比常春藤名校,连大神级人物何凯明也待过,令人向往。”
学与教,问与答,日日修炼,夜夜参悟。
“创新者”与“创造者”林达华,在对科研的热情中栖居,在对教学的深情中寄植,他探索着科研的生命力,张扬着沙场上的将领精神,只等凯旋。
(完)
林达华简介:
林达华是香港中文大学信息工程系助理教授,他在计算机视觉、概率推断,与深度学习方面有广泛的研究经历,并在多个课题上取得突出成绩。他在CVPR/ICCV/ECCV/NIPS/PAMI等计算机视觉与机器学习顶级会议与期刊发表逾百篇论文。他在2010年获得机器学习领域最权威国际会议NIPS的最佳学生论文奖,并在2009年与2011年获得计算机视觉最高学术会议ICCV的杰出评审员奖。他曾指导香港中文大学的研究团队参加ImageNet、ActivityNet、以及COCO等计算机视觉领域的主要国际竞赛,获得多个冠军。此外,他也担任CVPR,ECCV,AAAI,ACM Multimedia等主要国际会议的领域主席,以及顶级国际期刊IJCV的编委。
林达华教授2012年获得美国麻省理工学院计算机科学博士学位,2007年获得香港中文大学资讯工程硕士学位,2004年获得中国科学技术大学电子工程与资讯科学学士学位。
备注:Papers
Papers交流群
学术论文撰写交流,会议期刊投稿等信息,
若已为CV君其他账号好友请直接私信。
我爱计算机视觉
微信号:aicvml
QQ群:805388940
微博知乎:@我爱计算机视觉
网站:www.52cv.net
在看,让更多人看到