每天给你送来NLP技术干货!
来自:微软亚洲研究院
随着 AI 领域越来越火热,各大顶会的论文发布似乎也越来越难:AAAI 2020 放榜,8800 篇提交论文创历史记录;CVPR 2020 被称为十年来最难投中的一届;IJCAI 2020 审稿堪称史上最严,创下了史上最低的接收率 12.6%;OSDI 2020 录用率不足18%;NeurIPS 2020 论文投稿数量创历史最高,但接收率却为史上最低……
在这种情况下,不免有人感叹:“发顶会论文,怎么就那么难?”为此,我们特地收集了10个与如何“收割”顶会论文相关的问题,采访了三位来自微软亚洲研究院不同研究领域的研究员,他们都曾担任过不同顶会的领域主席。在圣诞节来临之际,希望前辈们的建议,能作为一份特别的礼物,帮助大家在科研道路上越走越远!
陈薇
陈薇博士,微软亚洲研究院机器学习组高级研究员,主要研究机器学习各个分支的理论解释和算法改进,目前的研究兴趣包括深度学习理论、深度强化学习、差异隐私、因果关系和博弈论等。陈薇曾担任 NeurIPS、ICLR 等会议程序委员会委员,并将担任 IJCAI 2021 机器学习方向的领域主席。
杨蛟龙
杨蛟龙博士,微软亚洲研究院视觉计算组主管研究员,研究方向为三维计算机视觉、人脸建模与分析。杨蛟龙长期担任计算机视觉顶级会议与期刊 CVPR、ICCV、ECCV、TPAMI、IJCV 的审稿人,并将担任 CVPR 2021 和 ICCV 2021 的领域主席。
张星星
张星星博士,微软亚洲研究院自然语言计算组主管研究员,目前研究兴趣集中在文本摘要及生成和预训练模型。张星星长期担任 ACL、EMNLP、NAACL 程序委员会委员,并将担任 ACL 2021 摘要方向的领域主席。
一个 idea(想法)是一个做科研的开始。在提到 idea 的来源时,三位研究员都不约而同地提到了读论文这个方法。想要输出好的内容,首先要有输入。杨蛟龙提到,关于 idea 最主要的渠道来源还是读论文,在读现有论文的过程中产生想法,比如发现现有某一个或一类方法的不足并思考解决方案、受某个现有技术的启发去解决另外一个新问题等。这也与张星星的观点不谋而合,张星星表示,一个好的 idea 是要解决前人没有解决的问题,或者改进之前方法当中的某些缺陷,这些都是一些比较好的出发点。
除此之外,良好的沟通也是必不可少的。在日常和同事、同学、导师的头脑风暴中,讨论需要关注的领域和问题,互相借鉴方法,更容易迸发出灵感的火花。在这里,陈薇鼓励研究者们在参加顶会或学术大会时,多去听一听自己感兴趣的 Workshop。往往这些 Workshop 中会有许多行业内前瞻性的探索,也会有很多活跃的业内人士,在这样的环境下,更容易产生好的 idea。
学科交叉迁移也是一个可以尝试的方法。作为数学背景出身的研究者,陈薇会把计算机领域的问题放在数学的知识框架下进行思考,从而探索新的问题或者解法。在计算机科学领域,也可以从最基本的概念和方法论去寻找灵感。
Q2:有没有一些好的/常用的论文写作技巧可以分享一下?
有时候,有些同学可能还没有接受足够的论文写作训练,所以容易依赖导师。但是,论文写作是科研的一个关键环节,尤其对于想独立做研究的学生来说,优秀的论文写作能力是不可或缺的。三位研究员们提出了许多可以借鉴的论文写作技巧。
第一,把自己放在读者的位置上。人们常常会在面对自己写的内容时,自我感觉良好,但如果换做一个对论文内容比较陌生的人来阅读,读者是否真正能领会到研究的要点,论文逻辑是不是顺畅,文章里的陌生词汇是不是很多…… 这些都是要从第三方的角度思考的。因此,在论文写作时应该多换位思考、从读者的角度去组织和修改文章内容,论文完成后还可以邀请同学、老师或者朋友帮忙通读论文,看看还有哪些读者疑惑的问题。
第二,写论文要有讲故事的思维。其实,做科研就是一个讲故事的过程,写论文也是。论文写作需要一个完整的故事逻辑,比如,从论文为什么要做领域内的这个问题出发,讲述现有算法为什么不能很好地解决这个问题,然后我们有什么新的发现或认识,基于此提出了一个什么样的方法,这个方法创新在哪,最后的结果又是怎么样的。论文一定要有一条很流畅的逻辑线,不要写成一个枯燥无味的技术报告。
第三,在阅读论文的过程中积累技巧。当你阅读其他作者的论文时,如果发现论文中有精彩的部分,比如优美且专业的用词、流畅的逻辑表达、漂亮的图表等等,都可以记录下来或者截图保存,建立供自己反复学习以及论文写作时参考的“语料库”。
第四,论文写作要简练、严谨、清晰。研究员们表示,在做 Reviewer(审稿人)时,他们经常会看到有的论文在阐述贡献时,会出现用力过猛的情况。因此,三位研究员都强调了,论文写作的语言要简练,突出重点。因为 Reviewer 的审稿时间是非常有限的,不可能把过多的时间浪费在一篇内容不清楚的工作上。同时,用语也要严谨。比如,在用形容词描述效果程度时,到底是 superb,还是 good,抑或 descent, reasonable 等,每个单词都要有把握,字斟句酌。这是因为,大部分人在读论文时都是抱着怀疑的态度,如果细节不严谨,可能会引起对该研究工作的不信任。
最后,论文写作不是一蹴而就的,需要投入大量的努力。三位研究员都表示,做研究和写论文都是没有捷径可走的。与其投机取巧,不如在研究一开始就踏踏实实,严格把关每个环节,尽早把实验变成文档,形成严谨的逻辑链条。杨蛟龙表示,对于刚起步的同学,写论文可以先搭建框架再丰富内容,由粗到精地写。比如,根据整体逻辑先确定每个章节的标题,再确定每个子章节及其标题,然后可以写章节中每个段落的第一句话(尤其是引言部分),最后再把所有段落内容写好。
Q3:如何做好投稿前的时间管理?
在科研中,做规划是件很难的事,因为研究过程中有太多变数。但即使计划很难,也还是要做。根据自己在 CV 领域顶会的经验,杨蛟龙认为在投稿3个月前,大家就需要紧张起来了。紧张起来并不是说要每天加班到凌晨,而是要做规划,根据项目目前的情况,列出事情的优先级。如果在一定时间内做不完,就不要再钻牛角尖持续拖下去了,尝试换一个方向。因为,如果没有这样的全局观,会很容易陷入“坑”里,自己总觉得还有时间,但最后可能会发现就算解决了这个“坑”,用处也没有那么大,时间没用在刀刃上。
对此,张星星总结了一套实用的方法——提前写一部分论文。一篇文章不需要等实验的所有部分都完成了才开始写,有很多部分其实是可以提前进行的,比如 related work(相关工作)部分。在方法部分,如果做实验已经看到方法有希望,那么可以先把方法写出来,方便梳理,也更容易“抠”细节、反思流程、产生灵感。最好论文的第一版可以提前一个月的时间完成并递交给导师,这样导师有足够的时间,也会给出及时的反馈。
当然,研究也需要良好的执行能力。陈薇提出,研究是一个完整的工作流程,每个环节都需要严谨。如果在选题、实验等各个环节中有所疏漏,那么整篇论文都不会扎实。提早发现问题,高标准严要求解决掉问题,会大大降低论文写作的难度。
一篇好的论文,内容要正确清晰,逻辑顺畅,真的有贡献,结果也要充分、有说服力。但对于不少国内的研究者来说,首先要过的就是语言关。张星星在审稿时就曾碰到过这样的事情:作为审稿人,他看懂了一篇论文,然而其他评审者却看不懂,给了很低的分数。其原因在于,张星星作为中国人,十分了解中国学者的用词习惯,所以他可以看懂这篇文章想要表达的观点,也看出来了这篇论文是中国研究者写的。然而,尽管他对文章的学术内容表示认可,并试图挽救这篇论文,但最后还是失败了。最终领域主席认为,论文的语言不符合 ACL 标准,文章不能被接受。
除了语言外,内容也是一大要点。杨蛟龙认为,一篇论文的内容在各个方面尽量都不要有短板。如木桶原理一样,论文中如果有短板,即使别的地方突出,评审者都不得不将评分降到较低的区间。因此,无论是在写作上,还是在讲故事、方法的创新性、实验的完整度上,论文都应该做到全方位没有“死角”。在没有短板的基础上,论文如果有亮点,比如方法非常新颖,实验特别充分等,都会受到好评。正如杨蛟龙所说:“如果能把论文的每个部分都做成亮点的话,那真的太优秀了。”不过,即使做不到整篇论文都是满分,那么把一个点做到极致,也会让人印象深刻。
当然,评审者也会有自己的喜好,张星星和陈薇都不约而同地提到了富有解释性的文章。很多文章的逻辑都是提出模型-模型优势-实验效果提高,但是如果能解释清楚实验结果数据为什么会这么好,多一些深入的分析,就更能接近问题的本质。
Rebuttal(辩驳)是论文评审中关键的一步。张星星表示,其实我们每天都在 Rebuttal。无论是和导师,还是和同事/同学,只要在一起讨论论文和问题,都是 Rebuttal 的过程。他自己曾经有三次通过 Rebuttal 让文章被改分的经历。“Rebuttal是有可能拯救一篇文章的,所以千万不要放弃 Rebuttal 这个机会。”对此,杨蛟龙也有切身体会。他回忆道,在一次投稿时,因为一个公式没有写清楚,而导致论文被几位审稿人否定,但在他通过 Rebuttal 环节详细解释后,文章最终得到了认可,评分也迅速上升,最终论文被接收。
研究员们表示,通读完论文的评审意见之后,可以先将提出的问题列出来,仔细思考为什么会有这些问题。大部分审稿人提出的意见背后都是有原因的,所以要从论文出发,回想有问题的部分,反思一下是不是确实容易产生误解,然后再去写 Rebuttal。
同时,对待 Rebuttal 的态度要端正,没有必要过分情绪化。Rebuttal 不是一个对抗的过程,事实上,审稿人是帮助者而不是敌人。陈薇认为,Rebuttal 其实是一个让文章可以变得更好的过程,在与同行的讨论中,我们也加深了对工作的理解。另外,在 Rebuttal 写作时也需要有一定的逻辑性,针对问题进行解释要层层递进。如果要求实验结果,那么就尽量去进行实验,因为图表数据更有说服力。其实,如果认真、真诚地回复 Rebuttal,既能显示出研究者对工作负责任的态度,也是对评审者辛苦审稿的尊重。
Q6:要如何和导师进行沟通互动?
在沟通过程中,首先要保持一个坦诚的态度。三位研究员都表示,同学们要不怕犯错,千万不要有了想法后不说出来,自己闷头“蛮干”。陈薇认为,做研究时思维方式要调整,导师是同学们的合作者,及时和导师沟通,可以避免走很多弯路,节省更多科研时间。从整个科研项目的管理上来说,让导师知道每个细节也是很有必要的。毕竟在快到 Deadline 时,如果学生有很多的话,导师也分身乏术,没有办法将很多时间分配给每个学生。
在写论文的角度上,杨蛟龙提出,刚接触科研的同学可以提前跟导师沟通,询问应该怎样讲一个故事,在导师提点之后,同学们就可以根据导师讲的思维开始起草论文了。如果是高年级的同学,则可以尽量去跟导师讨论自己的论文思路,等文章写完后再让导师提一些反馈意见。
在杨蛟龙看来,尽管整个 AI 领域的科研人员比原来增加了不少,但无论是从论文的录取率,还是投稿的难易程度等多个方面,他个人觉得和之前没有太大区别。发论文其实并没有那么难,难的是怎么出类拔萃。他表示,现在出现了很多快餐式的论文,尽管这种论文的内容好像也能说得过去,但其实对领域的研究发展帮助并不大。
如果想要成为一名优秀的研究人员,那么在刚开始做科研时,就要建立起良好的科研品味,比如要做对领域有重要贡献的工作,希望让更多人从中受益,或者对领域有所改变。如果从一开始做科研的时候就给自己树立这样的标准和价值观,那么你今后的论文将会是更有价值的存在,是能让人去引用的论文,那就是出类拔萃的。杨蛟龙鼓励每位同学都给自己设立一个小目标,比如做口头报告论文,做前10%、5%、3%的论文等等,以此来激励自己做有价值的科研。
Q8:ACL、EMNLP、IJCAI、AAAI 都会有 NLP 方向的论文,对于 NLP 的工作,会议倾向的风格会有什么不同吗?如果有的话,投稿时需要注意什么?
张星星提到,不同会议的风格确实存在区别。像 ACL、EMNLP 都是比较传统的 NLP 会议,可能更侧重相对传统一些的 NLP 领域问题。像 IJCAI 的话,内容就会更多样化一些,不仅有 NLP 的问题,可能还有计算机视觉、机器学习等多种 AI 相关的方向。如果是把 NLP 应用到了一个产品,或者一个比较新的领域中,那么 IJCAI 这类会议会相对比较喜欢这样的论文。如果是比较传统的 NLP 问题,那么把这样的论文投到更相关的会议上,则会受到更多的关注度。事实上,有经验的科研人员有时只需看论文的主题,就大致有一个感觉,觉得这篇文章更适合哪一类的会议,所以同学们可以多跟导师进行交流。
对于这个问题,陈薇从顶会的历史说起,给出了解答。
NeurIPS 是 Neural Information Processing Systems 的简称,在神经网络模型2012年再度兴起之前,这个名字听上去与机器学习并不十分匹配。但其实,NeurIPS 长期被机器学习等领域的学者所青睐并保持繁荣,其很大原因在于它比较开放、包容新兴问题和创新方法。这从 NeurIPS 一直以来尽力保持的 Single track + Poster 的会议形式也有所体现,鼓励学者在自由讨论中进行思维碰撞。所以,比较新颖的、脑洞大开的想法可以尝试投稿 NeurIPS。
相对 NeurIPS,ICML 是一个更加传统的机器学习会议,接收机器学习各个领域的前沿工作,较偏好理论、算法、实验比较平衡和完整的工作。ICLR 则是比较新的会议,创立于2013年深度学习兴起之时,鼓励从表达学习的视角理解深度学习,同时展现深度学习的各项前沿应用,比如计算机视觉、计算生物学、语音识别、文本理解、游戏和机器人等。另外,ICLR 首先采用了公开评议(Open Review)的审稿方式,评审意见公开,审稿人、作者、公众的讨论更加充分,学者在投稿或者关注中有更大收获,同时也促进了 ICLR 的快速成长。
杨蛟龙认为,科研能力包括很多方面,从最开始的学会读论文,到开始写论文做演讲,当然还有编码能力、思维能力等等,要求是全方位的,一个合格的研究员不应该有短板。而在这其中,最重要的是逻辑思维能力和问题分析能力。分析问题的时候,如果遇到一个问题,要怎么解决这个问题?如果这个问题成功解决了,接下来又有什么问题?这种树状的逻辑思维能力和分析能力需要长时间打磨、培养,才能建立起来。有了问题分析和解决的能力,才能在问题中快速发现关键点,也能在问题中获得灵感。
在张星星看来,科研能力和研究品味是需要慢慢提高的。好的输出必须有好的输入做基础,一方面要读大量的论文积累,另一方面就是要多做实验,在实验中看到方法的缺陷和问题。除此之外,去参加顶会也很重要。在开会时,可以和领域内的“大佬”多交流沟通,了解他们的观点,向他们提问,从而进行思维碰撞,提高自身能力。
陈薇则提出,同学们在进行科研时,最重要的一个前提是已经完成了一套完整的科研训练。亲身体会过完整的科研流程、培养良好的研究习惯后,才会对自己的研究有合理的预期,循序渐进地追求想法和深度。同时,科研中的心态十分重要。避免眼高手低,在科研开始阶段一昧追求做“大事”,也不要在已经完成科研训练之后低估自己,受限于舒适圈内而不敢大胆尝试。建议短期内在自己的兴趣、能力和工作的影响力三者之间做最优匹配,长期保持学习习惯、好奇心和挑战自我的勇气。
通过与研究员们的沟通,我们可以看到,科研是一个长期的过程,不仅需要技巧,更需要良好的心态。与其临渊羡鱼,不如退而结网,终有一天你也会成为别人眼中的“顶会大佬”!
最后,祝大家在以后的研究工作中论文全过,顶会全中!
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
整理不易,还望给个在看!