tfidf

tf-idf

【也是屡看屡忘】
【参考《信息检索导论》王斌老师译的那一本】

主要思想

如果某个词或短语在一篇

tf:

对于词项t,根据其在文档d中的权重来计算它的得分。最简单的方式是将权重设置为t在文档中的出现次数。这种权重计算结果称为词项频率,记为

逆文档频率表示的是出现t的所有文档的数目。

假定所有文档的数目为N,词项t的idf的定义如下:

因此,一个罕见词的 idf往往很高,而高频词的 idf就可能较低。

tf-idf=

对文档d中的词项t赋予权重:

当t只在少数几篇文档多次出现时,权重取值最大(区分能力较大)

当t只在少数文档出现,权重取值最小。

则文档可以看成一个向量,每个分量对应词典中的一个词项,分量值为权重值。

求文档的相似度采用内积即可。

你可能感兴趣的:(tfidf)