共现关系

 0 前言

在研究Text Rank算法时,有提到这个共现关系,从字面上很好理解,共同出现的关系,但是深究下,却发现有点绕。

1 共现关系

在文献计量学中,关键词的共词方法常用来确定该文献集所代表学科中各主题之间的关系。例如,需要通过分析一篇小说或剧本,来分析剧中各个角色之间的人物关系,可以用共现关系。

一般我们认为,在一篇文章中的同一段出现的两个人物之间,一定具有某种关联,因此我们的程序的大致流程也可以确定下来。我们可以先做分词,将每一段中的人物角色抽取出来,然后以段落为单位,统计两个角色同时出现的出现次数,并把结果存在一个二维矩阵之中。这个矩阵也可以作为关系图的矩阵,矩阵中的元素(统计的出现次数)就是边的权值。

举个例子,比如,现有三个段落的分词结果如下:a/b/c,b/a/f,a/d/c,那么就是ab共现2次,ac共现2次,以此类推。

 

回到我们所说的Text Rank算法,“然后采用共现关系(co-occurrence)构造任两点之间的边”这句话,初看,挺好理解的。

我们可以拿个简单的例子来理解

一个句子

宁波有什么特产能在上海世博会占有一席之地呢?

处理后{宁波 特产 上海 世博会 占有 一席之地},设窗口为5,则如图

        共现关系_第1张图片

从上图可以知道,对于窗口内,每个词之间对应的共现关系,这也就是对应textrank的无向图,至于权重,那也是该算法一直在改进的地方,目前很多论文都对于其权重进行改进。例如有结合LDA,有结合词向量,有结合信息熵等等进行改进。

你可能感兴趣的:(NLP)