heavy-talied distribution--学习笔记

  1. 指数分布在x趋于无穷时,是以指数的速度趋于0,以指数分布为分界线,将x->无穷时下降速度更快的称为Thin-tailed distribution, 比如正态分布。即在远离峰值的尾部区域,时间发生的概率更低一些。所以正态分布用来对那些主流事件发生较多,非主流事件发生较少的情况进行建模更为合适。
  2. 相对的,把x->无穷时下降速度慢于指数分布的称为重尾分布(heavy-tailed distribution)。
  3. 重尾分布:
    1. 更适用于对那些离峰值较远的稀有事件也会有相当的概率发生的情况。重尾分布作为一个大的类别,还包含三个重要的子类别,分别是肥尾分布(Fat-tailed distribution),长尾分布(Long-tailed distribution)和次指数分布(Subexponential distribution)。
    2. 长尾分布:
      1. 帕累托法则(Pareto principle),又称为二八定律。比如80%的财富集中在20%的人手里,图书馆里20%的书可以满足80%的顾客。
      2. 但在一些网上零售业中,如Amazon和Netflix,数据表明右端黄色的尾巴虽然平均需求小但是由于数量巨大,导致其总的营销收益甚至超过主流的商品。这一发现似乎对商业界的触动极大,也说明了正确建模的重要性。如果用指数分布进行建模,这些远端的需求也许就会被忽视;而用长尾分布进行建模就可以发现这些新的需求从而带来效益的提高。
      3. 长尾分布的数据定义理解,当x很大时,很有可能 x 实际上更大:当一个长尾分布的变量超过一个阈值时,那么很有可能它也会超过一个更高的阈值。也就是说,如果你发现情况很糟糕了,那么情况很有可能比你想象的更糟糕。
    3. 肥尾分布:
      1. 从建模的角度来看,肥尾分布就是针对那些罕见事件虽然发生的概率低,但也必须要考虑到的情况。比如一个保险公司考虑灾害的发生和保险的定价,那么像自然灾害这种情况,如果不考虑的话就可能面临真的发生时要赔很多的情况。因为正如肥尾分布的名字所体现的,即使在远离峰值的远端,那些罕见事件还是有相当的概率会发生的。虽然我们常常用正态分布对很多时间进行建模,但当一个事件的本质是肥尾分布而我们误用了正态分布或指数分布时,就存在着对“小概率事件真的发生”这种危险的低估。据说美国股市历史上的黑色星期五,千禧年的互联网泡沫破灭,以及2008年前后的金融危机都是这种错误的真实案例
      2. 在x较大的地方,肥尾分布趋于0的速度是明显慢于指数分布和正态分布的。柯西分布(Cauchy distribution)就是一类有名的肥尾分布。关于柯西分布,有几个有趣的性质,首先它是稳定的(stable),也有着显式的PDF和CDF,但是它的均值和方差确是无法定义的(undefined)。于是中心极限定理在这里就不适用了。如果试着做一下仿真,我们也可以发现,随着实验次数的增大,样本的均值并不会逐渐收敛到某个值上,而出现这种情况的原因就是时不时出现的“异常大值”会明显改变样本的均值。

你可能感兴趣的:(math,人工智能,算法)