Shapiro-Wilk (SW) 检验

Shapiro-Wilk (SW) 检验


介绍

有多种手段评估数据是否正态分布。分两大类:图形和统计量。图形手段包括q-q plot和p-p plot,统计量手段包括Kolmogorov-Smirnov 检验 and Shapiro-Wilks 检验。

 

Samuel Shapiro 和 MartinWilk[2]于1965年提出了Shapiro–Wilk 检验。他们观察到Normal probability plot与线性回归很类似。Normalprobability plot是q-q plot的特例,检查样本数据集是否匹配某正态分布,比如标准正态分布N(0,1)。


何时使用

Shapiro-Wilk检验用于验证一个随机样本数据是否来自正态分布。

在实际使用中,除了Shapiro-Wilk检验的结果,还应配上normal probability plot,提供样本分布形状方面的非量化信息。


假设

设 Y1< Y2 < … < Yn 是数量是n的一个排序的样本,需要验证其是否符合正态分布。假设是:

H0: 样本数据与正态分布没有显著区别。

HA: 样本数据与正态分布存在显著区别。


如何检验

检验使用的统计量W 定义为


其中

1.    是样本均值。

2.  a = (al ,… , an)T 符合以下条件: (Σaiyi )2(n -1) σ2,的最佳线性无偏估计(best linear unbiased estimate, BLUE [3]),σ 是样本来自的正态分布的标准差。 a 的确切值是:

a=(mTV-1V-1m)-1/2mTV-1

其中矩阵V 是个协方差矩阵(covariance matrix),属于n个标准正态分布的随机变量的顺序统计量(order statistics),m是这些变量的期望组成的向量。

3.  W的分母是通常使用的(n -1) σ2的一个无偏估计。

 

如果样本数据的确来自一个正态分布,统计量W的分子和分母均会趋向一个常数:(n -1) σ2的估计值。对于非正态分布的数据而言,分子和分母通常不会趋向同一个常数。

 

统计量W 最大值是1,最小值是na12/(n-1)。

 

可以把W看作是顺序排列样本值( yi ) 和系数ai之间相关系统的平方(squared correlation coefficient)或者是线性回归的确定性系数(coefficientof determination R2 for linear regression),它的值越高,越表示样本与正态分布匹配。

 

有了统计量,我们就可以设定一显著性水平α(常见的是0.05),然后获得它的分位数或者临界值Wα,如果W < Wα则拒绝H0,否则接受H0。如果使用p-value,如果p-value 小于显著性水平α.,则拒绝H0

 

注释:

不幸的是,针对大多数n统计量W的分布是未知的,必须通过模拟,造表或者近似方法(比如Royston的方法[4][5])获得。如下图显示,Samuel Shapiro 和 Martin Wilk 在[2]中为几个不同的样本规模画了W的C.D.F (累积分布函数)曲线。

Shapiro-Wilk (SW) 检验_第1张图片

 

在R中的使用方法

在R中使用此种检验方法很简单。设Y =(y1, . . . , yn)是一数据向量,直接输入命令shapiro.test(Y),就可以获得W的值和对应的p-value。如果p-value 小于设定的显著性水平(比如0.05),就拒绝正态分布假设,否则就不能拒绝。R允许样本规模到5000。

 

如下图示,我们用函数rnorm获得一个标准正态分布的随机样本,然后用函数Shapiro.test检验它的正态性。


Shapiro-Wilk (SW) 检验_第2张图片


结果显示p-value大于显著性水平0.05,所以不能拒绝零假设:样本来自正态分布。

 

 

References

1.      Statistical Analysis Handbook,Shapiro-Wilk

http://www.statsref.com/HTML/index.html?shapiro_wilk.html

 

2.      Shapiro S S, Wilk M B (1965) AnAnalysis of Variance Test for Normality (Complete Samples). Biometrika,52(3/4), 591-611.

 

3.      https://en.wikipedia.org/wiki/Best_linear_unbiased_estimator

 

4.      Royston P (1982) An extensionof Shapiro and Wilk's W test for normality to large samples. AppliedStatistics, 31, 115–124.

 

5.      Royston P (1992) Approximatingthe Shapiro-Wilk W test for non-normality. Statistics and Computing 2: 117.

 

你可能感兴趣的:(DataScience)