搜索引擎之齐普夫法则

背景描述:

如果对一个描述一个事时使用的词进行计数,n那么某些词的频率会远高于其他特定的词,有些高频词在描述任何事件时都存在,例如 “and”和“the”,但是其他高频词是某些特定事件所特有的。Luhn于1958年发现了这个现象,他提出一个词的重要性取决于他在文中出现的频率。词出现的频率的统计模型在信息检索中是非常重要的,应用于搜索引擎的很多部分中。这些模型将会在后续讨论,在此先介绍一些统计词语出现的基本模型基本模型。


齐普夫法则(Zipf's Law)

在文本统计中有一种现象,一些词出现的频率很高,而很多词出现的次数很少。事实上,英语最高频的两个词(“the”和“and”)占了所有词出现次数的10%左右,最高频的6个词占20%左右,最高频的50个词占40%左右。另一方面,在一个大规模文本中,词表中约一半词只出现一次,齐普夫法则就是描述了这种分布,他指出第r高频率的词出现的次数与r成反比,或者说一个词在词频统计表中的排名(r)乘以他的词频(f)约等于一个常数(k);

       r * f  =  k

(将一个文本中出现的词按其出现的次数从高到低做一个词频表,r表示该词在词频表中的排名,f是这个词对应的频率,而k则是一个常数,k常数的确定方法需要大量的数据进行训练)


等式两边同时除以这个文本的总词数 N,等式左边 f/N (频率/总词数)得到的恰好是这个词在文本出现的概率Pr而等式右边得到的是一个新的常数 k/N 暂且将其定位 c,于是我们得到如下公式:

r  *  Pr = c

(Pr表示第r高频的词出现的概率,c是一个常数)


对于英语而言c约等于0.1,以美联社1989年新闻报道集(AP89)为例,测试齐普夫法则在真实文本集合上预测词语出现次数的准确程度(AP89多年以来一直用于TREC测评)。我们发现除了对于特别高频和特别低频会有些许不准确外齐普夫法则基本能准确的预测词的比例,下面给出了一个用齐普夫法则预测词的比例的简单公式及其推导过程。

词频为n的词占的比例为   1/n(n+1)  

        推导如下:假设词频(这个词的数目)为n的词,其排名 Rn= k /n,我们知道相同词频的可能有多个,我们可以通过计算词频为n+1的词的排名减去词频为n的词的排名得到词频为n的词的规模即 Rn - Rn+1 =  k/n - k/(n+1)   = k/n(n+1),那么这些词所占的比例可以通过这个数除以所有不同词的个数得到。所有不同词的个数即为词集中最后一个的排名。词表中最后一个词的排名为 k/1 = k。(Rn - Rn+1) /k = k/n(n+1)= 1/n(n+1) 因此此词占的比例为 1/n(n+1)  。


你可能感兴趣的:(搜索引擎-信息检索实践)