信息检索复习(3)——文档评分、词项权重计算、TFIDF、欧式距离、曼哈顿距离

  • 概念
    • 词项频率(term frequency)tf: 词项t在文档d中的频率
    • 文档集频率(collection frequency)cf: 词项在文档集中的次数
      (给cf较高的词项赋予较低的权重)
    • 文档频率(document frequency)df:出现t的所有文档的数目
      (文档评分的目的是区分文档,最好采用基于文档粒度的统计量而不是用基于整个文档集的统计量来计算)
    • 逆文档频率( inverse document frequency):文档数目为N;由于df本身往往较大,需要将它映射到一个较小的取值范围中去


      逆文档频率
  • tf-idf计算公式


    信息检索复习(3)——文档评分、词项权重计算、TFIDF、欧式距离、曼哈顿距离_第1张图片
    TF-IDF
  • 欧式距离:以空间为基准的两点之间最短距离


    欧式距离
  • 曼哈顿距离:顾名思义,在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)


    曼哈顿距离
信息检索复习(3)——文档评分、词项权重计算、TFIDF、欧式距离、曼哈顿距离_第2张图片
摘自维基百科,红蓝黄皆为曼哈顿距离,绿色为欧式距离。

你可能感兴趣的:(信息检索复习(3)——文档评分、词项权重计算、TFIDF、欧式距离、曼哈顿距离)