TF-IDF和TextRank

TF-IDF简介

TF(term frequency)意为词频,用来计算关键词w在文档D中出现的频率,计算公式如下:

TF=\frac{count(w)}{\left | Di \right |}

其中count(w)为关键词w在目标文档(查询)中出现的次数,Di表示该文档中出现的词的总个数。当一个词在文档中出现次数越多,TF越大。

IDF(inverse document frequency)意为逆文档频率,用来表示关键词w在所有文档中出现的普遍程度,其计算公式如下:

log\frac{N}{\sum_{i=1}^{N}I(w,Di)}

N表示文档总个数,I(w,Di)用来衡量关键词w是否在第i个文档中出现,出现时取值为1,不出现时取值为0。由公式可知,IDF反应一个词的普遍程度-当一个词越普遍(即大量文档中都包含这个词时),IDF值越小。反之,IDF越大。

当一个词在所有文档中都未出现时,上式的分母为0,因此需要对公式进行平滑操作:

IDF=log\frac{N}{1+\sum_{i=1}^{N}I(w,Di)}

关键词w的TF-IDF值为上面两个值之积,即:

TF-IDF=TF_{w,Di}*IDF_{w}

从上述定义可知:

1、当一个词在文档中频率越高并且新鲜度高(即普遍度低),其TF-IDF越大。

2、TF-IDF兼顾词频和新鲜度,会过滤掉一些常见词,保存能够给目标文档提供更多信息的重要词。

TextRank简介

TextRank主要思想:通过词与词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank就可以得到关键词。

你可能感兴趣的:(nlp)