幂律分布

幂律分布

统计学意义

幂律分布就是常说的马太效应,二八法则,它是统计学中的概念。这种幂律分布概率密度可以表示成以下的形式:
y = α x − γ y=αx^{-γ} y=αxγ
其中,x,y是正的随机变量,α, γ均为大于零的常数。可见,在这种幂律概率分布上,概率越高,占比越小,大占比的分布位于那条长长的尾巴上。

例如: y = 5 x − 2 y=5x^{-2} y=5x2的分布图如下:
幂律分布_第1张图片

图1 幂律分布

通俗解释1

按照相关统计资料,假设99个成年男性的平均身高为167.1厘米。姚明身高226厘米,若将其纳入样本,则100人的平均身高约为167.7厘米。姚明的个子固然很高,但其身高与167.1厘米的平均身高相比,并不是那么悬殊,故把他纳入样本不会显著提高平均身高。

人类身高服从正态分布,绝大多数人的身高均处于平均值左右,很矮与很高的人在人群中的占比均很小。因此,基于样本的平均身高来估计个体的身高很“靠谱”。换言之,平均身高是一个典型值。若个体的身高等于平均身高,则从身高角度看,其属于“标准人”。

按照相关统计资料,假设99个成年男性的平均财富为15万元。根据2018年福布斯中国富豪榜的数据,某位商界精英身价2387.4亿元。若将其纳入样本,则100人的平均财富约为23.9亿元。亦即,一旦把他加入样本,则每个人都被“平均”成了亿万富翁。

财富平均值23.9亿元当然不是一个典型值,因为除了那位商界精英之外,其余99人的财富均远远小于这个平均值。换言之,从财富角度来看,拥有高达23.9亿元财富的个体不是“标准人”,而是属于人群中占比很少的富豪。对此,19世纪意大利经济学家帕累托很早就发现,人类的财富分布存在“可预料的不均衡”——少数人拥有的财富要远多于大多数人拥有的财富。一般而言,20%的人口几乎拥有80%的社会财富。

就统计推断而言,上述分析表明,计算身高的平均值是有意义的,而计算财富的平均值只会带来误导。究其根源,是因为人类身高服从正态分布,而财富拥有量不服从正态分布。那么,后者到底服从什么分布呢?请再看一则故事。

语言学家齐普夫在1932年发现,绝大多数词很少被使用,只有极少数英文单词被经常使用。实际上,经过长期演化的人类语言符合“最小努力原则”,基本上都具有“使用较少的词汇来表达尽可能多的语义”这一特点。齐普夫的发现被命名为齐普夫定律,成为文献计量学的一大重要定律。显然,与财富分布一样,单词使用频率也表现出很强的集中性。

有趣的是,人们还发现,人口中的姓氏、城市人口规模、论文引用次数、网站访问量、书籍及唱片的销量、战争规模等,其分布无不具有集中性。实际上,它们均服从幂率分布,亦称“长尾”分布。在此分布中,绝大多数个体的尺度都很小,而少数个体的尺度相当大。在数学上,幂律分布是唯一满足无标度特征的概率分布形式。简单理解就是,虽然20%的人口拥有80%的社会财富,但80%的社会财富的80%,又由20%的人口中的20%所拥有。由此推知,极少数超级富翁所拥有的财富很容易超出我们的想象。

幂率分布形成于一种正反馈机制,包括马太效应与网络效应。在日常生活中,幂率分布多呈现为帕累托法则、二八定律、关键少数法则等,其重要的启示是:对一件事情起决定作用的,往往是少数几个因素。因此,我们应抓住“关键少数”,优化决策。


  1. 幂律分布 ↩︎

你可能感兴趣的:(无人机)