正态概率图

最近复习概率统计,今天拿起来买回来放置了一段时间的《统计思维》看,第四章连续分布讲到一个陌生的名字,正态概率图,书上写的感觉不清楚,起码翻译版的是这样的。没记错的话本科老师也没有讲到,就写一下起码为没讲的学弟学妹们补充补充必要知识。

先摘录一下书上说的,对于指数分布(x & ln(1-cdf(x)))、帕累托分布(lnx & ln(1-cdf(x)))、威布尔分布(lnln(1/(1-cdf(x))) & lnx),都可以通过简单的转换来判断一个连续分布数是否能用于某份数据集的建模(上述括号内的对应函数均为直线,只需要判断样本数据是否能拟合成一条直线即可)。但是正态分布就不存在这样的变换,这里就需要正态概率图来判断。

先说《统计学》上讲到的标准做法(貌似书的bug也比较严重,修正了一下):

1. 将数据从小到大排列,并从1~n标号,为x1,x2,…,xj,…,xn。     

2. 求出样本观测值的标准正态分数zi,使得zi满足

1-α= (j-0.5)/n = P(Z<=z) = Φ(z)

例如,如果(j-0.5)/n=0.95,即Φ(zi)=0.95,也就意味着zi=1.645。[F(ua) =1-a, 上侧分位数P{U≥ua}=a]

3. 将zi作为纵轴,xj作为横轴,绘图,就是标准正态概率图。(即排序后的第j个数据xj对应zi,这里j和i取不同我觉着是为了说明数据不一定完全符合正态分布,zi中的i表示z的序列中第i个对应xj。)

4. 最后画一条拟合大多数点的直线。原理就是如果数据严格意义上服从正态分布,点将形或一条直线。将点形成的图形与画的直线相比较,判断数据拟合正态分布的好坏。对于为什么-0.5我认为应该是为了保证所有的阿尔法值处在(0,1)区间,两个数相差1,所以取0.5这个中间值,覆盖所有n+1个数的中间位置。

 

以上是理想方法,或者手工方法。这样再看统计思维说的方法就很明白了,因为更实用的方式肯定不是一直去查表得到一个结果,更通用的方式是用大量符合N(0,1)的数值拟合标准正态分布,只要能生成满足分布的随机数值,那么对于其他分布的验证,这个方式也同样适用。

随后文中提到大数据量的生成和计算也是代价较大的,因此提出了一种近似方案。

1. 从N(0,1)分布生成一个跟数据大小一样的样本。

2. 升值排序

3. 作图

 

其实跟理论方法差不多,只是可能操作起来更方便一些,理想方法可以在程序维持一个分数表就可以实现了,也不是太复杂;后面讲到的方法更有普适性。

 

抽了点时间写博分享一下,理解也更透彻了一些。最近写博少,期待最近还有东西可以分享。

 

参考文献:

1. Think Stats(Probability and Statistics for Programmers) 作者 Allen B. Downey

2. 统计学  作者:贾俊平

3. 正态概率图讲解http://wenku.baidu.com/view/03c56baddd3383c4bb4cd2ae

4. 再附上一个Weibull分布的说明吧

http://www.phsciencedata.cn/Share/wiki/wikiView?id=5d817414-eebf-401a-9b44-1d394e335de6

 

你可能感兴趣的:(统计,正态分布)