TextRank文档摘要

TextRank文档摘要

思想:借用pagerank的思路,把词和句看成”顶点”,把他们的共现看成”边”,可以认为,存在共现关系,即可视为一种”推荐”,通过迭代,使得到更多推荐的节点取得更高的分值,用以提取关键词、关键句子。

pagerank算法

S(Vi)=(1d)+djIn(Vj)1Out(Vj)S(Vj) S ( V i ) = ( 1 − d ) + d ∑ j ∈ I n ( V j ) 1 O u t ( V j ) S ( V j )

某网页Vi的得分,由两个部分构成,其中1-d是为防止出现零值,d右边的部分,是引用该网页的各网页Vj的投票之和,投票值等于该网页的打分S(Vj)除以它的出度,d一般取经验值0.85

应用到关键词提取和句子提取上,也是类似的,只是作者在pagerank的公式上作了修改,加入了得分权重,而在原始的pagerank中,所有的出链被当作是完全同等的,因此公式变为

S(Vi)=(1d)+djIn(Vj)wjiVkOut(Vj)wjkS(Vj) S ( V i ) = ( 1 − d ) + d ∑ j ∈ I n ( V j ) w j i ∑ V k ∈ O u t ( V j ) w j k S ( V j )

关键词提取

过滤停用词和不重要的词之后,把有意义的词看成顶点,窗口内的上下文共现的词与之连成边。实现表明,窗口大小为2,即只考虑相邻词时,效果最好,实现中只抽取了unigram,如果被选取的关键词在段落中相邻,则将之拼在一起作为phrase,并且,在只选取了名词和形容词时效果最好。

实验的对比对象为当时的最好结果,它用的是有监督方法,特征上考虑了文档内词频、数据集词频、首次出现的相对位置和postag序列

实验还对比了有向图的结果,即把词的出现顺序作为出/入方向,但结果不如无向图,且正向逆向的结果完全相等。

重要句子提取

抽取句子时,句子为顶点,句子内存在共同的词看成连接,把句子的相似度作为权重

由于该方法是无监督方法,对语料和计算量要求不高,且效果比较好,目前是文本摘要的主流方法之一

文章链接
https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

你可能感兴趣的:(机器学习与自然语言处理)