论文是如何被引用的?

想直奔主题看代码和数据的小伙伴请点击>>>>> Github


一、问题背景

每一篇论文后面通常都会有参考文献,这些参考文献是如何被引用的呢?是(在同一领域论文中)被随机选中的吗?还是说存在着某种隐含模式,比如说马太效应(“穷则越穷,富则越富”)?

数据集介绍:关于某个领域论文引用关系的数据,已经经过处理,并存储成了以文本表示的图格式,其中第一列为论文编号(共27770篇),第二列-第N列是其对应的参考论文编号,部分数据截图如下:

论文是如何被引用的?_第1张图片
数据

二、问题分析

论文引用模式,我们可以理解为一个有向图结构模式的问题。我们把所有的论文当成是一个个的节点,论文间的引用关系用有向的边表示。

举个例子,假设我们有论文1、2、3、4,如果论文1引用了论文2,论文2引用了论文3,论文3引用了论文4,论文4引用了论文1和论文2,其有向图拓扑结构如下所示:

论文是如何被引用的?_第2张图片
论文引用有向图

我们想知道论文的引用模式,其实就是一个有向图的in-degree分布问题,于是我们就把这个问题转化成数学问题了。接下来,我们要做的事情

1、数据导入、数据转换

2、数据探索(in-degree distribution)

3、跟两种模式进行对比:

(1)随机模式

(2)马太效应模式

三、数据处理

论文是如何被引用的?_第3张图片
数据导入

四、数据探索

论文是如何被引用的?_第4张图片
数据探索1
论文是如何被引用的?_第5张图片
数据探索2
论文是如何被引用的?_第6张图片
数据探索3

根据上面的citation graph的in-degree分布图,我们可以看到,论文被引用次数少的占比较大,随着论文被引用次数增长,论文所占的比例是越来越低的,有点类似长尾分布。但是看了这个图还是没什么感觉,我们找个随机引用模式下的图来对比看看。

五、随机模式对比

随机模式算法:

论文是如何被引用的?_第7张图片
random graph 算法

Python 实现:

论文是如何被引用的?_第8张图片
随机模式1
论文是如何被引用的?_第9张图片
随机模式2
论文是如何被引用的?_第10张图片
随机模式3
论文是如何被引用的?_第11张图片
随机模式4

对比我们的citation graph 跟 random graph的in-degree distribution,可以很明显的看到差别,citation graph的in-degree distribution散点图看起来是一条长尾,而random graph的in-degree distribution散点图看起来是个钟形图,很显然,论文引用的模式并不是随机的。我们再来看看另一种模式,这里需要设计一个算法来生成类似马太效应的graph,这里用了DPA算法,思路就是那些in-degree越大的节点被选中作为新节点的neighbor的概率越大,进而又使得它的in-degree更大。

六、马太效应模式对比

DPA算法:

论文是如何被引用的?_第12张图片
DPA 算法

代码略过,直接看图。

论文是如何被引用的?_第13张图片

DPA graph的in-degree distribution plot看起来跟citation graph的in-degree distribution plot比较类似,都是随着论文被引用次数增长,论文数量占比下降。也就是说被引用次数很多的论文占的是少数,大部分论文都是被引用很少次的。这跟我们的认知是很相似的。

七、结果解释

为什么论文引用是这样一种“富则越富”模式呢?

从DPA算法的设计中我们得到一些灵感,那些被引用次数越多的论文,其曝光次数越多,被越多的人看到,然后这些人又引用了这些论文,就像滚雪球一样,越滚越大。而那些默默无闻的论文,由于曝光次数太少,就渐渐沉了,更加不会被引用了。


学习资料:Coursera Algorithmic Thinking course materials.

你可能感兴趣的:(论文是如何被引用的?)