重尾分布,长尾分布,肥尾分布 和 随机游走 (Heavy-tailed, Long-tailed, Fat-tailed distribution and Random walk)

一看题目就知道本文内容较多,但因为放在一起讨论才能互相比较理解异同。本文主要讨论重尾分布,长尾分布,肥尾分布三者的联系,同时顺带讨论了一下 Random walk 中的 Lévy flight 和 Brownian motion。主要内容参考自 Wikipedia 和 Rick Wicklin 的博文 Fat-tailed and long-tailed distributions。其实我们讨论重尾长尾肥尾,数学上并没有一个明确的对于尾(tail)的定义,但这也并不妨碍我们进行一些推导和分析。

重尾分布(Heavy-tailed distribution)

从博文 概率论基础概念总结 Basic Concepts in Statistics 中我们了解到指数分布在 x 的时候是以指数的速度趋近于0,那么以指数分布为分界线,我们把 x 时下降速度更快的称为 Thin-tailed distribution (好像还没有中文翻译),比如正态分布。也就是说,在远离峰值的尾部区域,时间发生的概率更低一些。所以正态分布用来对那些主流事件发生较多,非主流事件发生较少的情况进行建模更为合适。与此相对的,把 x 时下降速度慢于指数分布的成为重尾分布(Heavy-tailed distribution)。其数学定义为:

limxeλxF¯(x)=,for all λ>0
其中, F¯(x)Pr(X>x) 是所谓的尾分布函数。

重尾分布更适用于对那些离峰值较远的稀有事件也会有相当的概率发生的情况。重尾分布作为一个大的类别,还包含三个重要的子类别,分别是肥尾分布(Fat-tailed distribution),长尾分布(Long-tailed distribution)和次指数分布(Subexponential distribution)。后文会对前两者进行讨论。

长尾分布(Long-tailed distribution)

长尾分布,或者说长尾理论是一个与互联网发展分不开的概念。说到这里就不得不先提一下传统商业中的帕累托法则(Pareto principle),又称为二八定律。比如80%的财富集中在20%的人手里,图书馆里20%的书可以满足80%的顾客。于是大家往往只关注在PDF图中最左面的20%的顾客,以期满足80%,如下图绿色的部分,来实现效益的最大化。

重尾分布,长尾分布,肥尾分布 和 随机游走 (Heavy-tailed, Long-tailed, Fat-tailed distribution and Random walk)_第1张图片

(注:图片来源 Wikipedia)

但在一些网上零售业中,如Amazon和Netflix,数据表明右端黄色的尾巴虽然平均需求小但是由于数量巨大,导致其总的营销收益甚至超过主流的商品。这一发现似乎对商业界的触动极大,也说明了正确建模的重要性。如果用指数分布进行建模,这些远端的需求也许就会被忽视;而用长尾分布进行建模就可以发现这些新的需求从而带来效益的提高。
长尾分布的数学定义为:

limxPr(X>x+t|X>x)=1,
就是说,当 x 很大的时候,很有可能 x 实际上更大。另一个等效的定义是:
F¯(x+t)F¯(x)

这两个定义带给人的一个有趣的直觉是,当一个长尾分布的变量超过一个阈值时,那么很有可能它也会超过一个更高的阈值。也就是说,如果你发现情况很糟糕了,那么情况很有可能比你想象的更糟糕。

肥尾分布(Fat-tailed distribution)

从建模的角度来看,肥尾分布就是针对那些罕见事件虽然发生的概率低,但也必须要考虑到的情况。比如一个保险公司考虑灾害的发生和保险的定价,那么像自然灾害这种情况,如果不考虑的话就可能面临真的发生时要赔很多的情况。因为正如肥尾分布的名字所体现的,即使在远离峰值的远端,那些罕见事件还是有相当的概率会发生的。虽然我们常常用正态分布对很多时间进行建模,但当一个事件的本质是肥尾分布而我们误用了正态分布或指数分布时,就存在着对“小概率事件真的发生”这种危险的低估。据说美国股市历史上的黑色星期五,千禧年的互联网泡沫破灭,以及2008年前后的金融危机都是这种错误的真实案例(来源:Wikipedia, Fat-tailed distribution)。
肥尾分布的数学定义为:

limxPr[X>x]xα,α>0
也就是说,在 x 较大的地方,肥尾分布趋于0的速度是明显慢于指数分布和正态分布的。柯西分布(Cauchy distribution)就是一类有名的肥尾分布。关于柯西分布,有几个有趣的性质,首先它是稳定的(stable),也有着显式的PDF和CDF,但是它的均值和方差确是无法定义的(undefined)。于是中心极限定理在这里就不适用了。如果试着做一下仿真,我们也可以发现,随着实验次数的增大,样本的均值并不会逐渐收敛到某个值上,而出现这种情况的原因就是时不时出现的“异常大值”会明显改变样本的均值。关于柯西分布,稳定分布和正态分布的关系,以后可能会再写博文来阐述。

随机游走(Random walk)

所谓随机游走,是统计学中一个很广泛的概念,包含了很多内容。我没能找到一个统一的数学模型来描述随机游走,但大意就是在任意维度的空间里,一个点随机地向任意方向前进随机长度的距离,然后重复这一步骤的过程。有一个有名的醉汉回家问题就是一个典型的一维随机游走的问题。
Lévy flight 是随即游走的一种,它的每一步方向完全随机而各向同性,但步长的分布是重尾分布(heavy-tailed)。Brownian motion(好像)也算是随即游走的一种,它的步长的分布取正态分布。下面两张图来自Wikipedia,分别描述了1000次的基于柯西分布的 Lévy flight (左)和基于正态分布的Brownian motion(右)。


重尾分布,长尾分布,肥尾分布 和 随机游走 (Heavy-tailed, Long-tailed, Fat-tailed distribution and Random walk)_第2张图片 重尾分布,长尾分布,肥尾分布 和 随机游走 (Heavy-tailed, Long-tailed, Fat-tailed distribution and Random walk)_第3张图片

从这张图上也可以比较明显地看出 Lévy flight 出现大跨步的频率确实要比 Brownian motion 要多一些。

已经有相当多的研究表明很多动物的移动模式可以用 Lévy flight 来描述。而近些年通过对人类的移动数据(通话记录、出租车等)的挖掘,我们惊奇地发现人类的移动模式也和 Lévy flight 高度吻合[1]。也就是说,虽然我们每个人急功近利地去追求自己的目标,但在宏观的尺度上,我们和山里的猴子没什么区别[2]。

Ref.
[1] Brockmann, D., Hufnagel, L., & Geisel, T. (2006). The scaling laws of human travel. Nature. https://doi.org/10.1038/nature04292
[2] Rhee, I., Shin, M., Hong, S., Lee, K., & Chong, S. (2008). On the Levy-walk Nature of Human Mobility: Do Humans Walk like Monkeys? INFOCOM, 19(3), 630–643. https://doi.org/10.1109/TNET.2011.2120618

你可能感兴趣的:(统计,维基百科,统计相关)