理解TF - IDF

Q1: TF - IDF的全称是什么,为什么是这个名字?
全称: 词频 - 逆文档频率(term frequency - inverse document frequency)
其中:

  • 词频(term frequency) 某个词在这篇文档中,所占的频率
  • 逆文档频率(inverse document frequency) log(所有文档 / 出现这个词的文档). 注意这个值是正数,所以有一个"逆"

Q2:最终的排序机制是什么
TF - IDF = TF * IDF
得到权重,进行排序

Q3:优缺点是什么
优点 : 容易理解
缺点 : 对所有词一视同仁,一般来说,文末的词的权重更高,但是无法调整.

你可能感兴趣的:(理解TF - IDF)