TF-IDF学习笔记

一、简介

TF-IDF,英文全名term frequency–inverse document frequency。TF,Term Frequency,词频;IDF,Inverse Document Frequency,逆文本频率。

TF-IDF的核心思想是:如果某个词在一篇文章中出现的频率很高,但在其他文章中很少出现,即在语料库中出现频率不高,则认为这个词具有很好的类别区分能力,适合用来分类。因此TF-IDF实际上是tf乘以idf的值,即字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。因此,TF-IDF值比较大的词,即可作为该文章的关键词。


二、公式

TF = 某词w在文章中出现的次数 / 该文章中词数

IDF = log(语料库中文章总数 / 语料库中包含词w的文章总数 + 1)

TF-IDF = TF * IDF

现在已经可以清晰的看到TF-IDF和文章词频的正比关系,和在语料库中出现的频率的反比关系。

其中注意两点:

1. IDF的分母加1是为了防止语料库中不存在包含词w的文章,导致分母为0,出现值错误。

2. 为什么要对IDF取log?这一点还需进一步探索。


你可能感兴趣的:(自然语言处理)