关于textRank在文本摘要中的应用(笔记)

在看hanLP的textRank应用于文本摘要时,不知道公式here中的d和qi在具体文本中的含义,于是去看了下hanLP实现textRank的github源码here和BM25源码here,终于懂了,记录在此.
textRank中图的点是句子,点与点之间的边的权值是句子与句子之间的相似度,假如一个文档中有D个句子,则权值矩阵就是D*D;
句子Q和句子d的相似度怎么计算呢?首先把句子Q分词,每个单词是一个语素qi,然后计算每个语素和句子d的相似度,然后把句子Q的所有语素与句子d的相似度加W权求和,即得句子Q和句子d的相似度.
那么语素与句子d的相似度(R(qi,d))和权重怎么求?
权重是该语素的IDF,IDF的分母表示含有语素qi的句子个数n,分子是不含qi的句子树(D-n)
R(qi,d)公式中的fi表示qi在d句子中出现的次数,dl是句子d的长度(单词的个数),avgdl是所有D个句子长度的平均值
over

你可能感兴趣的:(NLP)