数据分析与数据挖掘之四大分布三大检验

泊松分布

泊松分布是二项分布的一个变形和取极限,它通常被用来描述一段时间内或者一定空间内事件的发生次数的对应概率,用于小概率情况,假定它们满足"泊松分布"的三个条件:

  (1)小概率事件。

  (2)相互独立的,不会互相影响。

  (3)事件的发生概率是稳定的。

与泊松分布相对的是指数分布, 指数分布对应的是两次事件之间间隔多久的概率,再进一步有一个gamma分布,它对应的是n次事件之间的间隔时间。gamma 分布可以这样理解: 一段时间内发生了k次变化(伯努利事件), 每次变化都是相同的,结果记为正, 那么最终这段时间过后事件的结果为正, 那么对k取0到正无穷的积分,就能得到gamma分布了.

显然,第三个条件是关键。如果成立,就说明美国的治安没有恶化;如果不成立,就说明枪击案的发生概率不稳定,正在提高,美国治安恶化。

根据资料,1982--2012年枪击案的分布情况如下:

数据分析与数据挖掘之四大分布三大检验_第1张图片

计算得到,平均每年发生2起枪击案,所以 λ = 2 。

数据分析与数据挖掘之四大分布三大检验_第2张图片

上图中,蓝色的条形柱是实际的观察值,红色的虚线是理论的预期值。可以看到,观察值与期望值还是相当接近的。

数据分析与数据挖掘之四大分布三大检验_第3张图片

我们用"卡方检验"(chi-square test),检验观察值与期望值之间是否存在显著差异。

  卡方统计量 = Σ [ ( 观察值 - 期望值 ) ^ 2 / 期望值 ]

计算得到,卡方统计量等于9.82。查表后得到,置信水平0.90、自由度7的卡方分布临界值为12.017。因此,卡方统计量小于临界值,这表明枪击案的观察值与期望值之间没有显著差异。所以,可以接受"发生枪击案的概率是稳定的"假设,也就是说,从统计学上无法得到美国治安正在恶化的结论。

但是,也必须看到,卡方统计量9.82离临界值很接近,p-value只有0.18。也就是说,对于"美国治安没有恶化"的结论,我们只有82%的把握,还有18%的可能是我们错了,美国治安实际上正在恶化。因此,这就需要看今后两年中,是否还有大量枪击案发生。如果确实发生了,泊松分布就不成立了。

正态分布

正态分布是一个连续概率分布, 在已知均值和方差的情况下,有如下分布:

其中μ是均值(数学期望),σ是标准差,它的平方就是方差。它的函数图是钟形曲线。

这个分布在自然界中很常见下面要讲的3个统计学分布都跟正态分布有联系。
值得一提的是,正态分布在多维概率的情况下,有很多有意思的属性,比如 一个多维正态分布的边缘函数必是一维正态分布,若干个一维正态分布的代数和构成的分布还是正太分布(再生性),多维正态分布的条件概率分布也是正态分布。总之正态分布很牛逼。

判断一个分布是否是正态分布有好几种办法:通过偏度S是否为0,峰度K是否等于3。还有比较正式的JB检测。

卡方分布、检测

卡方分布是从正态分布中衍生出的一种分布。其定义是若干个随机变量的平方和也服从一种分布,即卡方分布。

卡方检测可以从《深入浅出统计学》一书第14章中找到一个非常形象的例子——对一个赌博机进行1000次操作,各种结果的抽样次数与其期望值的差即是一个个服从正态分布的独立变量(天文学中测量误差研究正是正态分布的起源之一。书中的公式还要把差值除以期望值,这是为了归一化),差值的平方和服从卡方分布。对数据进行5%的假设检测,查卡方分布表就可以得出结论。卡方分布还有一个自由度的概念,它指自由变量的个数。注意卡方分布不是用来检测正态分布的,而是检测这些随机变量是否服从其给定的概率的。

你可能感兴趣的:(数据挖掘,数据分析,python)