转自
https://github.com/qiyuangong/How_to_Search_and_Read_a_Paper/blob/master/README.md
=============================
看着一帮一帮的硕士师弟入学,开题,答辩和毕业。感觉到自己渐渐向老古董靠拢(老古董现已博士毕业)。一次偶然的机会,发现一部分师弟到写毕业论文时都不会查论文,对于学校的电子资源更是知之甚少。顿时感到无比心疼,送上搜索文献一文,希望对你们少走弯路,早日“入门”。
本文档适合于刚入学的硕士和博士(计算机专业最好,其他专业可参考)。(高年级博士请直接跳到第4-5章)。文中有很多非严谨的语句,希望各位海涵。文中的不少例子以东南大学位为例,请自动换成自己学校的链接或者内容。
本篇文章总结了学术搜索和论文阅读的一些基本方法。
符号备注:
现有的大部分学术数据库都要收费(部分Open Access的论文、纯免费的杂志,以及国内期刊/学报除外)!而且很贵(5美金一篇)!幸好学校图书馆已经为我们准备了丰富的学术数据库。相当于帮我们把论文的下载费用都先行支付了。那么,不好好利用就是太可惜了。以东大为例,东大学术数据库列表。其他学校可以到本校的图书馆主页寻找。
注意: 大部分学校购买的数据库都是通过IP认证(部分是镜像);所以,不在学校时,需要用校园VPN(例如,以东大校园VPN)。同时,由于这类数据库对于批量下载很抵触,希望大家不要用工具批量下载,否则会导致学校(和你)被加入黑名单。
Google学术
最强大的学术工具,没有之一。配合Google强大的搜索能力,搜索体验非常好,并支持多种格式的参考文献导出。特别注意,Google学术可以跟踪作者和论文(如有论文被引用或者作者有新论文就会提醒)。如果用学校IP登录,大部分文献可以直接下载。
DBLP
对会议检索很快,会将作者的相关工作整理归类。也会将会议的论文整理。
微软学术
对会议的分类和排序比较好,可以分领域搜索。微软学术本身对于会议和论文会有详细的分析(排名,引用状况等),很适合详细分析某个会议或者一篇论文的发展趋势(引用趋势)。
两大计算机协会,外加Springer和Web of Science:
ACM
IEEE
Springer
Web of Science
WARNING: 各大网站导出的参考文件格式不同(特别是IEEE和ACM)!记得在论文中统一
三大中文检索数据库:
万方
维普
知网
如果前面几种方法搜索到了论文,但是无法下载(论文库问题,后者还未正式发表)。那么Google就是最好的方法。直接Google这篇论文,有些大牛会把论文挂在自己主页上。而且,现在Google支持论文内部检索(直接定位到论文中的段落)。需要注意的是: Google到的论文版本可能不是最终发布版本,部分细节可能会改变。
TIPS: 实在不行,厚着脸皮问作者要论文(客气一点,作者还是会答应的)。我曾经问一些作者请教过论文相关的问题 (甚至请求过论文的源代码),大部分作者都回复了我,而且不少人回复的非常认真。
论文很多,很杂。一篇优秀的论文需要很多心血和时间去不断的修改和凝练,而一篇垃圾论文可能只需要复制和粘贴。两个级别的论文差距很大,当然也会给我们带来不同的影响。从我的经验来看,阅读论文时要以优秀论文为主,避免被垃圾论文误导。所以,最好在检索时候就鉴别论文质量。另一方面,即使是顶级论文,也还是太多了,如果不通过筛选缩小范围,读论文的速度绝对赶不上论文出来的速度。
上面提及到的各类检索工具都会对论文进行排序。排序方式有很多种
被引用次数(很重要,大部分检索工具默认)
原理很简单: 如果其他作者认可这篇论文中的工作,就会主动去引用这篇论文;因此,被引用次数越多,说明这篇论文的越重要。反之,如果没人引用,除非是新方向或者最新的论文,基本都可以判定为比较差。
会议或者期刊的排名
顶级期刊和会议的论文的平均质量非常高。主办方会将论文交给领域内顶尖的大牛来审论文;这些大牛也很重视,会花大量时间和精力去审论文,以保证会议和期刊的质量。
领域列表(由导师或者师兄提供)
CCF列表(顶级会议和SCI期刊)
学院认可的学报(随着毕业条件变化,可能会不适用):
计算机学报
软件学报
计算机研究与发展
通信学报
中国科学
东大学报
搜一篇明确的论文需要不到一秒;但是通过搜索扩充自己对领域的认识,需要慢慢积累!对于一个新的领域,你至少需要了解: 关键词、关键技术、领域划分、重要的论文列表以及重量级大牛。随后,再选择自己感兴趣的方向,进一步细分和研究。
了解一个领域的方式一般有以下几种:
如果这个领域有几篇很有影响力的综述(survey)或者几篇优秀的学位论文,那么以下三种方法所需数据都可以被大大缩短。因为通过他们,你就有了以下东西:
TIPS: 一篇好的综述非常有用,可以省去很多时间和精力。不过有survey也说明该领域已经比较成熟。
关键词(keyword)是搜索的核心,也是找到论文的核心。好的关键词库能够串起一大片好论文,甚至一个领域,也能帮助我们快速识别某篇论文是否属于我们领域。不过,寻找关键词不能心急,需要不断阅读不断积累。等关键词积累到一定程度,你就会发现对领域的认识到了一个新的高度。
以下是我寻找关键词的流程:
例如: 最开始我只知道数据匿名和数据隐私,通过搜索和阅读文献,我发现数据匿名和数据隐私类的论文一般有以下关键词data privacy, data anonymization, privacy preserving data publishing等;同时,数据的匿名操作在不同论文中的说法也不一致,有用anonymize, coarse, distort, clean, sanitize等等。那么这些关键词就可以扩充到我的关键词库中,方便我鉴别某篇论文是否属于我的研究领域。后期发现,其实用coarse, clean的人很少,只是在论文中避免重复使用anonymize时才会出现,所以可以弱化这两个关键词。
WARNING: 上面所述的关键词特指英文关键词,中文关键词由于翻译和语境问题,更加多样化,统一性太差。
TIPS: 关键词积累很漫长,需要阅读大量文献;但是随着时间推移,这些关键词会帮助我们更好的理解这个领域
准备开始找:
WARNING: 简单有效的方法!但是,需要有明确的目标。整个过程需要不断的增加论文,并分类论文。不然手头的论文只会越来越杂(论文多到不敢想象,但是真正对你有用的就那么几篇)。做好过滤和分类,可以大大提高入门速度。
TIPS: 相关工作(related work)一般会提供很好的文献分类,参考这个章节可以帮助我们划分手头的论文。
发现某些人在领域论文中出镜率很高?恭喜你,开始邂逅大牛了。大牛一般很牛X,理解得深入,实验做得好,论文写得好,不喜欢拿公式和理论恶心人。这样的前辈,对我们的研究会有很大帮助。
找大牛一般有以下方法:
自动上门(实验室请过来交流):
主动找:
WARNING: 跟着大牛的论文列表去入门肯定不会错。但是,小心别被大牛带坑里去(大牛一般都有团队,而我们往往只有一个人。特别是大牛说“这个很简单!”时)。
最暴力的方法,工作量巨大,费眼睛。但是每年扫一次可以保持对领域的清晰认识。
TIPS: 扫墙也是有技巧的。先浏览abstract和introduction,觉得相关或者感兴趣再进一步浏览。千万不要逐个通篇阅读,费力费脑,吃力不讨好。
如果时间有限,直接读abstract是最高效的方法。如果时间还很充裕,那么就把introduction也读一遍。读完这两部分,就应该能基本理解论文的核心思想。
WARNING:读得速度越快,对论文的理解越差,甚至会出现误解。因此,想要好好理解一篇论文,精读是非常必要的。
通过泛读(快速)阅读筛选完论文之后,需要精读部分的重要论文。我个人建议将精读分为几个阶段进行:
每个阶段可以对应一次或者多次阅读,通过多次阅读来加深对论文的理解。不要指望一口气能够理解整篇论文。很多原因会造成理解不够深入甚至理解错误,例如现阶段的知识面不够,或者对于某些概念理解错误等。所以需要多次阅读(如果有必要,多次讨论)来避免这类问题。
WARNING:讨论是非常必要的(最好由阅读论文的人主讲),当其他人从他的角度提出疑问时,很可能会给意想不到的惊喜。
通过添加论文 被引用通知和 作者论文通知,我们可以掌握领域内最新的研究进展。
已知可以添加被引用通知的搜索工具(均需要注册账号):
Google学术添加提醒(强烈推荐):
Web of science添加通知:
添加"引用提醒。搜索论文,点击进入,点击"Create Citation Alert"添加。收录期刊论文比Google快,还是非常有必要的。
微软学术:
TIPS: 有时候,论文还没发表,就已经能够通过引用关系找到该论文。建议师弟师妹们好好熟悉下。
核心会议的时间和地点基本固定,但是投稿时间和deadline区别很大(abstract没投就不让投正文)。为了避免晚一天的悲剧,国内外各有一个工具,都非常好。注册账号后,只要搜索会议,在会议页面点击"Track"或者"Add to my list"即可,到特点时间点(例如,abstract deadline)就会提前发邮件通知你。
WikiCFP可以查看详细的timeline,非常直观;但是每次会议过期需要手动添加下一年会议,比较麻烦(一般本年会议开完后,下一年的会议时间才能基本确定,等到WikiCFP收录,估计要1-2个月)。Conference Partner最新改版后变得不是很好用,但是可以显示会议地点,直接在地图上显示。
随手写了这么多,希望对各位师弟师妹的有帮助。希望你们站在我们肩膀上,比我们做得更好。