TFIDF关键词提取简介

TFIDF原理

对于若干个文章的集合,我们要提取每篇文章具有代表性的关键词,我们应该怎么做呢?

最直观也是最容易想到的方法,就是统计每个词汇在文章中出现的频率TF(term frequency),频率高的就是具有代表性的词汇。但是这样的话,可以想象频率最高的词汇一定是“的”“是”“你我他”这样的stop words,所以,我们首先要排除这些词汇。TF的计算方法如下:

                                                           TFIDF关键词提取简介_第1张图片

另外一点,举个例子,我们有三类文章A,B,C,首先这3篇文章都有一个高频率词汇“中国”(而且是频率最高的词汇),其次,A文章第二高频词汇为“体育”,B“艺术”,C“音乐”;请问,你觉得“中国”可以作为最具有代表性的词汇吗?明显不可以吧。所以,除了考虑词汇的频率之外,还需考虑词汇在其他文档当中出现的概率,词汇的重要性应该和该概率是反相关的,我们用一下公式来衡量:

                                                TFIDF关键词提取简介_第2张图片

所以,为了衡量一个词汇的重要性,我们使用TF-IDF来计算:

                                                  

草考文献:

[1] tfidf - wiki

[2] TF-IDF与余弦相似性的应用(一):自动提取关键词

你可能感兴趣的:(自然语言处理)