正态性检验之QQ图与PP图

正态性检验方法有很多种,主要可以分为以下几类:

图示法 统计方法
正态概率图、频率直方图、PP图、QQ图 偏度峰度检验、皮尔逊卡方检验、K-S检验、W检验、EP检验、秩和检验、游程检验等非参检验

按理说图示法应该是最简单的方法,但大多本科统计学教材并不会涉及PP图和QQ图,上网搜会发现各有各的画法云里雾里,为了防止之后再看一次又乱了所以自己再整理了一下

QQ图

QQ图全称是Quantile-Quantile Plot,要理解QQ图的绘制首先要把握好分位数(Quantile)的概念:

分位数(分位点)

给定总体X,其概率分布函数为F(x),若x满足
F ( x ) = p F(x)=p F(x)=p
则称x为第0.25分位数

四分位数=第0.25分位数=第25百分位数,我们平常接触的定义是四分位数和百分位数,在后续换成中间那种理解就可以了,例如对该总体,第0.25分位数为-3,也就是F(-3)=0.25

上面针对的是连续分布函数F存在的情况,在很多实际问题中这个总体分布是未知的,我们只能用样本推断,用得到样本经验分布来近似总体分布

假设总体X未知,但我们有一个容量为n的样本 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn),可以得到次序统计量 ( x ( 1 ) , . . . , x ( n ) ) (x_{(1)},...,x_{(n)}) (x(1),...,x(n)),并导出样本经验分布 F n ( x ) F_n(x) Fn(x)
F n ( x ) = { 0 x < x ( 1 ) k n x ( k ) ≤ x < x ( k + 1 ) , k = 1 , . . . , n − 1 1 x ≥ x ( n ) F_n(x)=\left\{ \begin{aligned} & 0 & xFn(x)=0nk1x<x(1)x(k)x<x(k+1),k=1,...,n1xx(n)
这个经验分布的形式直接,易于理解,但有缺陷,比如当x取到 x ( n ) x_{(n)} x(n)时,分布函数值就为1了,那是不是有种比 x ( n ) x_{(n)} x(n)大的样本值不可能存在的意思?所以通常情况下会对上述经验分布做一些修正,将 k n \frac{k}{n} nk做一些小改动,主要有以下几种改法:
k − 0.5 n ; k n + 1 ; k − 0.375 n + 0.25 \frac{k-0.5}{n}; \frac{k}{n+1}; \frac{k-0.375}{n+0.25} nk0.5;n+1k;n+0.25k0.375
在QQ图绘制时用的是第一种修正形式,在正态概率图绘制时则会用到第三种

此时我们考虑 F n ( x ) = p F_n(x)=p Fn(x)=p,由于经验分布的非连续性,如果给定的p不在 { k − 0.5 n , k = 1 , . . . , n } \{\frac{k-0.5}{n},k=1,...,n\} {nk0.5,k=1,...,n}中,是不能直接对应到x的

所以为了理解上的方便,在对样本设定分位数时,样本量多少就取多少个分位点,如样本量为n就有n个分位数,这样对于每个次序统计量 x ( i ) x_{(i)} x(i),都可以确定它是第几分位数,同样地给定p求第p分位数能得到一个样本值 x ( i ) x_{(i)} x(i),只要由下式通过 i i i建立起 p p p x x x的一一对应就好: p i = F n ( x ( i ) ) = i − 0.5 n , i = 1 , . . . , n p_i=F_n(x_{(i)})=\frac{i-0.5}{n},i=1,...,n pi=Fn(x(i))=ni0.5,i=1,...,n


回到正态性检验QQ图上,它是散点图,横坐标为期望总体分布(正态性检验就是标准正态分布)的分位数,纵坐标为样本经验分布的分位数,如此一来一共有n个点,每个描的点坐标形式就是:
( ϕ − 1 ( p i ) , x ( i ) ) (\phi^{-1}(p_i),x_{(i)}) (ϕ1(pi),x(i))
如果还觉得晕看个例子就好了:
样本为(2,6,4,7),考虑 i = 1 i=1 i=1,就有 p = 1 − 0.5 4 = 0.125 p=\frac{1-0.5}{4}=0.125 p=410.5=0.125,通过p可以确定标准正态分布的分位数(由 p = ϕ ( x ) p=\phi(x) p=ϕ(x)得到分位数 x x x,可以直接查表)和样本经验分布的分位数(由 p = F n ( x ) p=F_n(x) p=Fn(x)得到 x x x
当然,搞明白上面的关系可以发现样本经验分布的分位数可以直接由 i i i得到,即 x ( i ) x_{(i)} x(i),在这里 x ( 2 ) = 4 x_{(2)}=4 x(2)=4

另外,如果我们需要的只是检验正态性,不需要对均值和方差进行图示检验,期望分布定为标准正态分布就好了,此时只要考察点是否落在一条直线上,直线的截距为均值,斜率为标准差;如果要检验分布是否为 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) μ , σ 2 \mu,\sigma^2 μ,σ2已知),期望分布也可以直接定为 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),这是考察的就是点是否落在 y = x y=x y=x

下图来自Matlab官网的qqplot词条,稍微留意一下横纵坐标间距和起点都不同,可以认为它来自的总体满足正态性但绝非标准正态分布(有一说一官网词条的解释比乱搜清楚太多了):
正态性检验之QQ图与PP图_第1张图片
至于为什么落在一条直线上就说明是正态的呢?这直观上很好理解,如果还想用数学辅助理解的话,可以这么考虑,直线上坐标 ( ϕ − 1 ( p ) , F − 1 ( p ) ) (\phi^{-1}(p),F^{-1}(p)) (ϕ1(p),F1(p)),p是一个定义域在(0,1)区间上的变量,做变量替换:
{ p = ϕ ( x ) p = F ( y ) \left\{ \begin{aligned} & p=\phi(x) \\ &p=F(y) \end{aligned} \right. {p=ϕ(x)p=F(y)
线性约束可以写作 y = a x + b y=ax+b y=ax+b,从而有 F ( a x + b ) = p = ϕ ( x ) F(ax+b)=p=\phi(x) F(ax+b)=p=ϕ(x),这和正态分布转换公式 F ( σ x + μ ) = ϕ ( x ) F(\sigma x+\mu)=\phi(x) F(σx+μ)=ϕ(x)是等价的,得证#
另外还可以顺便得出以下结论:直线的截距为均值,斜率为标准差

注:

QQ图不局限于正态性检验,它还可以检验两个样本来自的未知总体分布是否相同
两个样本的样本量 n 1 , n 2 n_1,n_2 n1,n2可以不同,分位数的个数取为 n m i n = m i n { n 1 , n 2 } n_{min}=min\{n_1,n_2\} nmin=min{n1,n2};当分布相同时,点位于y=x上,当分布之间有线性关系时,点位于直线上

PP图

写不动了PP图就简要介绍一些了><,和QQ图差不多,只是横纵坐标由分位数换成了累积概率,这就意味着横纵坐标的取值范围都落在0~1之间
说一下它是如何绘制的吧,回归这个式子:
F ( x ) = p F(x)=p F(x)=p
(它还在输出.jpg)
其实第p分位数为x,就等价于取值为x时累积概率为p,所以给定样本数据x,只要分别取样本经验分布 F n ( x ) F_n(x) Fn(x)和期望分布 F ( x ) F(x) F(x),就能通过上式得到两个p,将通过期望分布得到的p作为横坐标分量,通过样本经验分布得到的p作为纵坐标分量就可以描出散点图啦!点的个数即样本个数

一般QQ图使用得比较多,因为QQ图不仅能检验正态性,拟合出的直线的截距和斜率还能近似均值和方差

第一次写,有错误欢迎指出!

你可能感兴趣的:(学习)