6.3排序式检索 tf-idf权重计算

提示:
信息检索:文档评分-词项权重计算-向量空间模型
 第三部分:tf-idf权重计算

文章目录

  • tf-idf权重计算
    • 权重
    • 文档频率df
    • idf计算举例
    • cf VS df
    • ※tf-idf权重


tf-idf权重计算

在进行排序时,除了词项频率tf之外,我们通常还需要词项在整个文档集中的频率和评分。
原因,当词项A和词项B在文档1中tf相同时,但词项B在文档集中每个文档中都有,而词项A只存在于文档1中,那么A和B需要有一个重要性的排序。

权重

罕见词项要比常见词项蕴含的信息要多很多,它出现的频率越低,那么出现它的文档就显得相关性更高。那么我们就希望给它更高的权重。
那么对于常见词而言,相对蕴含信息就相对偏少,给一个低的权重即可。

文档频率df

出现词项的文档数目
6.3排序式检索 tf-idf权重计算_第1张图片
6.3排序式检索 tf-idf权重计算_第2张图片

idft是反映信息量的一个指标。
用log10(N/dft)来限制N/dft的作用
6.3排序式检索 tf-idf权重计算_第3张图片

idf计算举例

N=1000000
6.3排序式检索 tf-idf权重计算_第4张图片

cf VS df

6.3排序式检索 tf-idf权重计算_第5张图片

vs
文档集频率cf t在整个文档集中出现的次数
文档频率df 包含t的文档数目

6.3排序式检索 tf-idf权重计算_第6张图片

哪一个更适合查询?即赋予更高的权重?
通过上图,df(idf)的更适合做查询

※tf-idf权重

6.3排序式检索 tf-idf权重计算_第7张图片
在这里插入图片描述
在这里插入图片描述

6.3排序式检索 tf-idf权重计算_第8张图片
6.3排序式检索 tf-idf权重计算_第9张图片

你可能感兴趣的:(信息检索,程序人生,信息检索,自然语言处理)