来源:微软学术合作
本文约6000字,建议阅读8分钟。
阅读文章不仅是大家在科研道路上进步的必由之路,也能使我们的心智不断成长,认知模型和思维方式不断完善。
沈向洋博士:如何以正确方式打开一篇科研论文?
很高兴有这样一个机会跟各位同学、VC 组的研究员们交流,也非常感谢华刚跟我一起准备这个演讲。
我想今天听报告的大多数学生应该是在研究生院阶段,我非常喜欢这个阶段的生活,因为这可能是你一生中时间最充足的阶段,以后工作了就会非常忙。我想强调的是在这个阶段,你应该多读书、多读文章。如果你决定要从事科研工作,就需要不断地学习、理解和消化知识,再过渡到自己创造知识、散布知识。
多年前,我到微软亚洲研究院后就成立了 Visual Computing 组,对它有着深厚的感情。这几年我也一直在思考和解决一个非常重要的问题——阅读和理解之间的不匹配。通过科研论文的角度去思考阅读和理解之间的关系,是整个人类智能中非常重要的部分。下面,我想分享自己对做科研方面的一些体会,特别是怎样读 paper 和写 paper、怎么样更好地做科研。
我认为好的研究员有几个特质,首先要 open-minded——这个世界只有想不出来的东西,没有做不出来的东西,要有批判性思考的能力;其次是要努力工作;还有要不断更新自己的知识面,要读很多最新的东西,然后思考、交流,这样才能慢慢把自己学到的东西用起来。
今天主要想跟大家分享我在读科研论文方面的一些心得。读文章有几个阶段,最简单的是所谓的“消极阅读”(passive reading),即大概知道文章讲了什么;然后是“积极阅读”( active reading),主动思考这些知识有什么用;然后是“批判性阅读”(critical reading),思考这篇文章是否言之成理理;最后是“创造性阅读”(creative reading),搞清楚文章对接下来的工作有什么帮助。
我认为在读研究生期间需要掌握三个非常重要的技能:阅读、写作和展示。实际上这三件事情有内在的逻辑关联。我有个同事 Simon Peyton Jones 对此提了一些建议,大家可以到微软研究院网站观看他的视频“how to write a great research paper”和“how to give a great research talk”。
读论文为什么这么难?
如果大家决定做科研,那读论文就是必修课。为什么读论文这么难呢?
首先,大多数科研论文本身写的不是特别好,大多数作者的母语并不是英语,而英语又是学术界的官方语言,所以一些作者在论文语言把控上欠缺火候。我回过头来看自己早年写的几篇 paper,有时候会希望自己没有写过它们。文章写得不好只是一个客观原因,论文难读的第二个原因,是读论文时读者需要对论文主题有很深的背景知识储备。第三个原因是在阅读中遇到困难的时候,我们不知道应该从哪里、向谁寻求帮助。第四个原因是读完论文以后,如果我想继续深挖这个主题或者探索研究方向,除了去问导师以外,还可以向谁寻求意见呢?第五个原因,是当今世界有太多的诱惑和干扰,不像我们以前“两耳不闻窗外事、一心只读圣贤书”,在这个有互联网的世界里,长时间专注是一件很困难的事情。
我想跟大家分享这几年我一直在想的一个问题,就是所谓的“disconnect between reading and writing”。人类社会发展到现在离不开获取知识和利用知识,但是目前为止,阅读和写作这两件事仍是脱节的,作者和读者的非直接沟通中必然有理解的偏差。
实际上,这种关系可以用香侬的信息论原理来解释——论文是作者和读者之间交流信息的渠道,主要是单向传输,信息源是作者,而目的地就是读者。写作就像编码,阅读就像解码,所以我们需要一本 Codebook 来介绍“编码”到“解码”所需要的知识,也即作者按照这本 Codebook 中的规范进行“编码”,阅读者则用它来“解码”。
其实,香侬理论只是概括了阅读与写作的一部分,真实的阅读往往超越了传统的“传输-压缩”框架,它更多的是一个反复的理解过程。在这个过程中,读者不断地揣测作者的意图,并将之解构成能够理解的片段,随后这些片段被构建到读者脑中的认知模型里。所以,阅读等同于理解,不同层次的阅读对应不同层次的理解——深度阅读导致深度理解,浅显的阅读对应的必然是浅显的理解。不同需求应该对应不同的阅读层次,你可能需要快速浏览,可能需要仔细阅读,如果你的导师需要你复现论文中的细节,那么你就需要非常深入地研读。
阅读文章的三个层次:速读、精读与研读
了解了阅读的本质,那么我们应当如何阅读 paper 呢?
首先是要有“速读”的能力,快速知道一篇文章讲了什么。其次是要“精读”。精读有两个方面:批判性阅读和创造性阅读。首先要对论文进行否定、质疑,仔细挑毛病;其次,对论文有了足够的了解之后,如果发现论文中提到的想法非常优秀,那么要创造性地思考你能用这篇论文做什么。第三个步骤,我称之为“研读”,比如说自己尝试将文章中的算法实现一遍。
除了阅读的方式,读者还要理解所读的论文是怎样写出来的。一篇好的论文在逻辑上是层层递进的,不仅能够传达信息也能够激励读者。所以作者在写的时候也是有结构化的逻辑性思考程度的。总体上作者会思考:这篇论文的真实任务是什么、研究发现是什么;论文的贡献是什么等等。
相应地,读者在读论文的时候也应该要有逻辑,首先要清楚论文中的表达是否是我想要学习到的;其次,我能从论文中学到多少,能不能找到新的方向与新的课题初稿;最后,这篇论文的背景是什么——是什么样的背景让这篇论文变得重要和有趣。
无论是计算机视觉领域的文章还是泛计算机类的文章,一般来讲,都可以归为以下几类:提出问题型论文、解决问题型论文、阐述和调查型论文、总结型论文。
快速阅读:如何读标题、摘要和引言
接下来我向大家介绍一些读论文的经验。首先是快速阅读。计算机视觉领域的著名学者 Don Geman 曾经说,一篇文章可以分为标题、摘要、引言、论文主体四个部分,每一部分都需要花同样的时间进行撰写。这个说法虽然夸张但是不无道理,因为大多数读者实际上最关注的就是文章开始的两页纸。对读者而言,看完前两页就知道这篇文章是不是值得去读;对 reviewer 而言,看完开头就知道能不能拒绝这篇文章。
我的前同事 Jim Kajiya 是一个非常了不起的图形学专家,他最牛的地方就是基本上从来不和别人合写文章,都是自己独立完成。Jim曾经写过一篇文章“How to get your SIGGRAPH paper rejected”,文中最核心的观点是文章一定要写得易读——这篇论文是关于什么的?它解决了什么问题?迷人之处在哪?有什么新的东西(我一直强调做科研的终极问题就是 what's new,写文章的时候一定要强调文章中有什么新的东西)?巧妙之处何在?
如何读论文的引言?举个例子,我最近在读《拥有伦理学:企业逻辑、硅谷与伦理学的制度化》(Owning Ethics:Corporate Logics, Silicon Valley, and the Institutionalization of Ethics),在引言部分,我问了 Kajiya 提出的那几个问题。首先这篇论文讲的是高科技公司在道德方面做了什么;其次,解决的问题是现在的实践(拥有道德)做法;文章的迷人之处在于最近的丑闻和技术后冲(techlash);这篇文章的最新之处是对 17 位科技公司的“道德拥有者”进行了采访;最后,论文的神奇之处是得出了结论:道德所有者在令人担忧的动态中运营公司。
接下来,我将介绍如何读摘要。计算机学科论文中的摘要一般有固定格式,读起来非常枯燥。所以,要读摘要的时候,将其分解并加上一些有趣的亮点,可能有利于阅读。中国学生的英语一般都不太好,虽然到了研究生阶段,思维方式可能还停留在中文思维到英文思维转换的阶段。对此,一个很好的建议是尝试把摘要翻译成中文,在这个过程当中,你会发现自己有一些细节没有领会到位,第一遍读的时候不见得读懂了。
回到标题,如何读论文的标题?标题一般只有一句话。从整篇论文的排版的角度来看,在一页半的引言、四分之一页的摘要以及八页的双栏正文面前,只有一句话的标题显得不太“重要”。但是标题是总结、抽象的概括。我曾有一个重要发现:高质量的文章通常标题用两个词就能概括,并以 ing 结尾,例如 Plenoptic sampling、Lazy Snapping、Poisson matting。所以对于读者来说在读这些抽象的词或句子的时候,只有花费较多的时间才能读懂论文作者的意图。
仔细阅读:从批判性阅读到创造性阅读
下面我将介绍仔细阅读的一些技巧。
以批判性阅读开始,带着质疑的心态问问题。如果作者论文中声称解决了一个问题,那么你就要在心里问自己:论文是否正确、真正地解决了问题?作者论文中所用方法是否有局限性?如果所读的论文没有解决问题,那么我能解决么?我能采用比论文中更简单的方法解决么?所以,一旦进入仔细阅读的状态,要在读论文之前对自己说:这篇论文可能有问题,我要找出来。这就是批判性阅读。
批判性阅读可能非常难,也可能占用你很多的时间,早期知识储备不够时,读论文的过程中很容易卡壳。常见的建议是找熟悉这方面工作的人帮忙,让他们解释你遇到的难点。但你要意识到找人帮忙也可能遇到困难,一方面,你要找谁帮忙?另一方面,如何能让他们愉快的接受你几分钟、十几分钟、甚至接近一个小时的咨询?他们不一定有那么多时间。所以我一直鼓励大家在研究生阶段一定要跟身边导师、师兄师姐、厉害的同学们搞好关系。等到你自己成为师兄师姐后,也要积极回应学弟学妹们的提问。
除此之外,也建议你们多找一些背景知识阅读,多做笔记,多在网上搜索相关论文,然后再次通读所卡壳的论文,并试着把它与其他论文相联系起来,如此坚持下去,定能渡过难关。
掌握了批判性阅读的技巧后,如何达到创造性阅读的层次呢?这时候你要问自己:在我所读的论文中,有哪些好的 idea?(一般文章中只有一个 idea,好的文章中可能有两个 idea,最了不起的文章可以有2.5个 idea。)搞清楚作者的 idea 以后你要思考,作者有哪些点还没有想到?可以怎么改进?如果我现在做这项研究,我能做的新事情是什么?
如果说批判性阅读是“negative thinking”,那么创造性阅读就是“positive thinking”。创造性的阅读需要把你所读的论文和其他相关的论文建立联系,从而产生一些新的想法,这些想法可以支撑你进行三个月到五个月的研究。如果读到了非常好的文章,不妨写一篇半页到一页左右的 review。最好做一个口头展示,这样你会发现,只有把东西写下来或者说出来才能真正深刻理解。
我一直觉得理解了一个东西以后,最重要的是能够自问自答,这张图片是一个总结,图片的上半部分是比较客观的问题,包括论文的核心观点是什么?主要的局限性是什么?代码和数据是不是可得的?论文的贡献是否有意义?论文中的实验是否足够好?图片的下半部分是比较主观的问题,包括我错过了什么相关论文么?这对我的工作有何帮助么?这是一篇值得关注的论文么?这个研究领域的领头人是谁呢?哪些公司、研究院、实验室值得关注?其他的人对这篇论文有何看法呢?如果有机会见到作者,我应该问作者什么问题?当你在阅读论文的时候如果能回答出上面列出的问题,我相信你会对你所读论文有非常深刻的理解。
有哪些工具可以帮助我们?
我还想跟大家分享一些能够帮助阅读论文的工具,例如谷歌以及必应网页搜索引擎、谷歌学术、arXiv 等能够搜索到你想要的论文,但这些工具都不能真正帮助我们读懂 paper。在阅读的过程中,OneNote 可以帮助你做笔记;CliffsNotes 作为美国知名的学习指南网站,能够提供文献学习指南;Mendeley 是非常优秀的参考文献管理。
另外也强烈建议大家使用在线论坛讨论论文,增加学术交流,增强对所读论文的理解能力,但是遗憾的是,尚未有非常适合讨论论文的在线论坛,现在的一些社交网络产品或许很棒,但是它并不是为了学术研究目的而设计,毕竟学术论文的“非有趣性”不适合社交产品的调性。
最后,我想向大家介绍几个小 tips。我最想强调的是要养成写小总结的习惯,最好能做报告,这样真的能够增加你对所读论文的理解。我想再次强调,大家一定要有耐心,因为阅读就是在你大脑中建立认知模型的过程,虽然不知道今天读的文章未来什么时候能够派上用场,但是请大家保持阅读、建立认知的习惯。
华刚博士:带着十个问题去阅读和思考
接下来我将和大家分享作为研究员如何在学术领域获得成长的一些经验。这次暑期训练班的初衷是希望帮助到大家建立科学研究工作的认知模型,下面我会引入一种叫做“模板阅读”的方法论。
如同前面沈老师所说的,读 paper 可以分为四个阶段:消极阅读、积极阅读、批判性阅读和创造性阅读。
我认为大家可以通过严格的科研训练达到批判性阅读之前的阶段,但是创造性阅读的境界很难只通过训练达成。只有积极主动地去思考问题、把自己的背景知识与之联系起来,形成一个“故事”,并能够自己书写自己的“故事”时,才能在学术社区建立认同。
本次科研训练中,我希望同学们能够带着这十个问题去阅读文章,能够筛掉无用的信息、让真正有用的信息被构筑到自己的认知模型中,真正掌握这种科研思维模式。从机器学习的信息瓶颈(Information Bottleneck) 的类比看,这个过程就是让你的思维认知模式经过这十个问题模板形成的一个信息瓶颈而打造成型。
带着10个问题去阅读和思考
1. 这篇文章究竟讲了什么问题?比方说你设计一个算法,它的 input 和 output 是什么?
2. 这个问题的性质是什么?是一个新的问题吗?如果是一个新问题,它的重要性何在?如果不完全是一个新问题,那为什么它“仍然重要”?
我在西安交大念书的时候,沈老师曾经给我们做过一个演讲,其中有一句话令我印象深刻——“一流的研究员发现新问题”。发现有意义、有挑战性的新问题,实际上是一个研究最大的贡献。但毕竟学术领域内人才济济,很多人没有机会发现新问题,所以很多文章致力于回答第二个问题——为什么这个问题仍然值得去研究?
3. 这篇文章致力于证明什么假设?接受过深度科研训练的人都知道所有研究其实都是从科学假设开始的。从 12 年开始,计算机视觉领域的很多研究员认为这是一门实证科学(experimental science),即需要提出假说并通过实验去验证。
4. 有哪些与这篇文章相关的研究?这一领域有哪些关键人物?
大家做研究、读文章时,要了解这个方向的重要工作和从事相关研究的关键人员信息,才能把问题的来龙去脉搞清楚。让领域内的人们认识你、了解你的工作,你才能慢慢地被更多的专家、同行认可。我一直认为作为一名研究员要足够“八卦”,知道领域内哪些人做什么样的事情。
5. 这篇文章提出的问题解决方案中,核心贡献是什么?
6. 实验是如何设计的?计算机视觉研究中,实验设计的重要性不言而喻。但在写 paper 的过程中,实验的表现不是最重要的,关键是如何通过实验去支撑每个假说。
7. 实验是在什么样的数据集基础上运行的?科学研究结果应当是可以量化、可以复现的,读文章的人是否能接触到文中所用的数据集?
8. 实验结果能否有力地支持假设?如果一篇文章提出的假设并没有被实验或者理论完美支撑的话,多半不是一篇好的文章。
9. 这篇文章的贡献是什么?回答了前面 8 个问题之后,第9个问题的答案也呼之欲出了。你应当试着用自己的语言总结出来。
10. 下一步可以做什么?这是非常关键的一个问题,也决定了你今后能否在科研领域获得成功。在这篇文章的基础上,我们接下来能做什么?应该做什么?在科学研究的初期,导师会给你方向上的指导,但作为一名独立的研究员,你应该独立地回答这个问题。
以上就是这十个希望大家回答的问题。本次训练可以带领大家达到批判性阅读的阶段,但要最终达到创造性阅读的阶段,还需要你有“T 字型”的知识结构,即有足够广的知识储备,在某个方向钻得足够深。我们希望你也能提出自己的“10 个问题”,写出你自己的故事。这种多样性,正是科研领域健康发展的关键。
两位老师的精彩演讲是否令你心潮澎湃、充满干劲呢?“You are how you read”,阅读文章不仅是大家在科研道路上进步的必由之路,也能使我们的心智不断成长,认知模型和思维方式不断完善。这个暑假,让我们一起在科研之路上乘风破浪吧!
沈向洋博士主要专注于计算机、视觉、图形学、人机交互、统计学习、模式识别和机器人等方向的研究工作。他所设计的四分树样条函数算法是世界上最好的运动参数估计算法之一。他已发表关于计算机视觉、计算机图形学、图形识别、统计学习和机器人科学方面的数百篇论文,拥有超过 50 项美国专利。
华刚博士是 IEEE Fellow,IAPR Fellow 和 ACM 杰出科学家。他的研究领域包括计算机视觉、模式识别、机器学习和机器人技术等。在加入 Wormpex 之前,华刚曾担任微软计算机视觉科学主任以及史蒂文斯理工学院副教授。
编辑:文婧