TF-IDF

  • 词频(Term Frequency,TF)
  • 逆文档频率(Inverse Document Frequency,IDF)

作用:用于判断一个文档的分类。
直觉:给定一个文档,如何人工判断它的主题:顺序浏览,查看某个单词的出现次数。但是有的单词,不仅在这个文档出现次数多,而且在其他文章出现次数也多,这时这个单词对于这个文档就不是那么重要。比如:‘the’,‘a’,‘an’等。所以把词频和逆文档频率计算出来,就可以大概说明这个文章的主题是什么!


第一步,计算词频:
文档中单词的个数。

第二步,计算逆文档频率:

其中,分子是语料库的文档总数,分母是包含该词的文档数加1。求对数是对结果进行放大。

第三步,计算TF-IDF:

可以看出,TF-IDF值,与该词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。


参考文献:
阮一峰
TF-IDF与余弦相似性的应用(一):自动提取关键词

你可能感兴趣的:(TF-IDF)