文 | python
各位在CS(计算机)科研的苦海中挣扎的亲们,有没有觉得这些年科研越来越卷,论文越来越难发?
实锤了!用数据说话,计算机领域的论文真的越来越卷了!
最近,一篇德国伍珀塔尔大学的硕士毕业论文,基于DBLP Discovery Dataset数据集,对 1936~2022年之间的,计算机学科发表的500万篇论文做了统计分析。
今天,小编就带大家看看这篇文章,看下计算机领域的科研最近卷成什么样子。
论文题目:
Analyzing the State of Computer Science Research with the DBLP Discovery Dataset
论文链接:
https://arxiv.org/abs/2212.00629
上图显示的是计算机领域论文发表篇数随时间的变化图。可以发现:
计算机学科论文数在2000年前后飞速增长。以1989~2009年这20年跨度为例,每5年论文数的增长率分别为:90%,61%,92%,66%。20年间,论文总数增长了10倍,年化增长率12.0%。这也是计算机学科飞速发展的20年。
而最近,论文明显卷不动了。作为峰值的2019年,论文数仅比10年前增长了65%。年化增长率仅有5.1%。计算机学科发展速度明显放缓。
然而,2016到2019年之间,论文数量有一个相对快速增长,年化增长率达到8.2%。我猜是因为人工智能领域的论文在这几年暴增导致的。
2020年后,论文发表量不增反降。虽然可能也有数据收集上的影响,但也一定程度上反映出疫情对学科研究的影响。
虽然论文越来越难发,但人们涌入计算机学科的热情却是不减。如下图所示,1989年到2009年之间,论文的年化增长率为12.0%,每年发表论文的作者的年化增长率为12.7%,没有明显差距。而2009年到2019年之间,虽然论文的增长率只有5.1%,作者的增长率却达到了6.9%。论文发表越来越难了。
甚至,2020年疫情之后,虽然论文数量下降,作者数据量居然略有上升。对比2021年与2019年,论文数量下降了21.0%,作者数量仅下降9.7%。
最近这几年,大量新人涌入计算机领域。2016~2020年,这5年间,发表论文的新人占总发表过论文人数比例分别为:7.6%,7.9%,8.1%,8.4%,7.7%。也就只有2020年的疫情,抑制了新人过快增长的势头。2019年与2020年均有超过18万人“涌入”发表论文的行列。可谓是长江后浪推前浪,前浪死在沙滩上。
在2020年,超过1/3的研究者在近两年发表过论文。需要注意的是,这里还有大量毕业之后不再从事科研工作的人,以及几十年前就已发过论文的老前辈当分母。可见计算机的卷度。
还有一个不幸的消息,虽然大量新人涌入,但可以投的期刊/会议(Venue)并没有显著增长。虽然2019年作者数比2009年涨了95%,但如下图所示,2019年的期刊/会议数比2009年只增加了27%。特别是最近,对比2020年和2015年,研究者人数增长了37%,但Venue数反而还下降了4.4%。Venue的数量往往表示了领域的繁荣度,越多热门的子领域,通常就会有越多的Venue供大家投稿。Venue减少,可以研究的方向减少,但涌入的人增多,内卷度自然也就拉起来了。
真正的卷王,不只是要发论文,还要发高被引论文。
多高被引才算高呢? 下表统计显示,如果引用能过1000,基本就是千里挑一的水平了,引过过100也是29里挑一。你是不是也拖了后腿?不过没关心,将近70%的论文引用量不到10,大家陪你一起拖后腿。
如何投稿,论文引用才能更高呢? 统计显示,257万篇会议论文,平均引用为13.76,而221万篇期刊论文,平均引用量达到26.60。从1960年开始,期刊论文的平均引用量一直超过会议论文的。看来,真的卷王,还是得投期刊呀。
那具体哪些期刊会议的引用量更高呢? 下表统计的是期刊和会议的总引用量前10(不是平均引用量前10)。可以看到,CVPR、ICCV和ECCV等CV大会总引用量可观,平均被引均超过了100次,值得一投!当然,这个数据也可能是因为你和马爸爸算了下平均收入。
然而,像ICASSP,IEEE Access等大会/期刊,录用的论文较多,论文质量也参差不齐,平均被引仅为15.7和8.2次,似乎不是卷王的最优之选。
追逐热点,永远是赚引用的最佳方式。 下表中统计了不同年代,引用最多的期刊/会议论文中的关键词,可以发现,大家关注的热点,从上世纪code, algorithm, program,software,逐渐过度到data,task,network,dataset,learn,train,visual等。计算机的研究从底层算法和软件,逐渐向人工智能上应用转变。
最近随着疫情的影响,大家更爱投期刊了。 如下图所示,2019年时,会议论文的发表量还比期刊论文多6.8%,但到2020年,反而要少18.2%。反正也开不了会了,不如去投个期刊。
本文也只是一些宏观的统计结果,并且受限于DBLP Discovery Dataset数据集的一些特点,在所难免地会有些偏颇。大家在计算机的大坑中被卷来卷去,必然有着更深的体会。在此也预祝大家能够卷出一片新天地,早日毕业,找到理想的工作,脱离苦海,修成正果,或上岸躺平,或成就卷王。
北大毕业的NLP博士。日常写点论文,码点知乎,刷点leetcode。主要关注问答、对话、信息抽取、预训练、智能法律等方向。力扣国服第一python选手(经常掉下来)。知乎 ID 是 Erutan Lai, leetcode/力扣 ID 是 pku_erutan,欢迎没事常来逛逛。
作品推荐
恕我直言,你的实验结论可能严重依赖随机数种子!
AllenAI 发布万能问答系统 MACAW!各类题型样样精通,性能大幅超越 GPT-3!
吐血整理:论文写作中注意这些细节,能显著提升成稿质量
加入卖萌屋NLP、CV、搜广推与求职讨论群