【《数学之美》笔记(二)】关键词权重的科学度量TF-IDF

该系列合集会同步发布与 GitHub HomePage


以短语“原子能的应用”为例,可以拆分成三个关键词:“原子能”、“的”和“应用”

主要思想:词出现次数较多的网页应该比它们出现较少的网页相关性高

缺点一:篇幅长度的影响

解决方案:根据篇幅长度,对关键词次数进行归一化,即,称为关键词的“单文本词频” (Term Frequency)

此时,要度量网页与查询之间的相关性,一个简单直接的方法就是:直接使用各个关键词在网页中出现的总词频

若查询包含N个关键词,它们在某个特定网页中的词频分别是,则这个网页的与该查询之间的相关性为:

缺点二:“停止词”的干扰

解决方案:在度量相关性时,不考虑这些词的频率

缺点三:没有考虑不同关键词的信息量。例如,“应用”是个通用的词,而“原子能”是个很专业的词,后者在相关性评估中应该比前者更重要

解决方案:对每个关键词施加一个权重,这个权重的设定必须满足:

  • 预测主题的能力强,则权重大,否则,权重小;

  • 停止词权重为0——不需要对第二个缺点做特殊的处理,在这里就顺带解决了第二个问题;

这样查询与某个网页之间的相关性就变成了:

其中,是第i个关键词对应的权重

那么具体该如何得到呢?

基于这样的常识:如果一个关键词只在很少的网页中出现,通过它就容易锁定搜索目标,它的权重就应该大;反之,如果一个词在大量的网页中都出现,看到它仍然难以确定要找什么内容,那么它的权重应该小

因此,假定一个关键词在个网页中出现过,那么越小,的权重就越大

在信息检索中,使用最多的权重是“逆文本频率指数” (Inverse Document Frequency, IDF)


参考资料:

(1) 吴军《数学之美(第二版)》

你可能感兴趣的:(【《数学之美》笔记(二)】关键词权重的科学度量TF-IDF)