基于spss的正态分布正态性检验

****基于spss的正态分布正态性检验****

  • 正态分布
  • 正态性检验
    • 频率直方图
      • 实验步骤
    • P-P图
      • 实验步骤
    • Q-Q图
      • 实验步骤
    • K-S 检验
      • 实验步骤
    • 描述法(偏度和峰度系数检验)
      • 实验步骤

简要介绍这五种方法,
有需要数据练习的练习我

正态分布

	正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。

正态曲线呈钟型,中间高,两头低,左右对称。因其曲线呈钟形,因此人们又经常称之为钟形曲线。而当我们得到一组数据需要判断其是否是符合正态分布时,常常通过偏度、峰度统计量去体现,分别表示了正态曲线的偏离中心程度,以及集中趋势。
基于spss的正态分布正态性检验_第1张图片
当一组数据的分布形式形如上图的形式,则可以称其服从正态分布。而我们所需要做的就是检测数据的分布形式。

								接下来以SPSS做为操作软件,进行讲解。

正态性检验

实验案例数据来源于《实用回归分析》P6,表1.2数据,使用软件为SPSS25。

频率直方图

在直角坐标系中,
横轴表示样本数据的连续可取数值,按数据的最小值和最大值把样本数据分为m组,使最大值和最小值落在开区间(a,b)内,a略小于样本数据的最小值,b略大于样本数据的最大值。组距为d=(b-a)/m,各数据组的边界范围按左闭右开区间,如[a,a+d),[a+d,a+2d),……[a+(m-1)d,b)。
纵轴表示频率除以组距的值,以频率和组距的商为高、组距为底的矩形在直角坐标系上来表示,由此画成的统计图叫做频率分布直方图。

实验步骤

  1. 分析(A)
  2. 描述统计(E)
  3. 频率(F)
  4. 选择需要检验的变量
  5. 图表一栏中如图勾选
    基于spss的正态分布正态性检验_第2张图片

P-P图

P-P图是根据变量的累积概率对应于所指定的理论分布累积概率绘制的散点图,用于直观地检测样本数据是否符合某一概率分布。如果样本数据服从所假定的正态分布,则散点较好地落在原点出发的 45°线附近。

实验步骤

  1. 分析(A)

  2. 描述统计(E)

  3. P-P图

  4. 选择需要检验的变量

  5. 检验分布选择正态分布
    基于spss的正态分布正态性检验_第3张图片
    实验结果:
    基于spss的正态分布正态性检验_第4张图片

     可以看出数据散点基本落在原点出发的45°线附近,所以样本数据服从所假定的正态分布。		
    

Q-Q图

Q-Q图(Q代表分位数)是一个概率图,用图形的方式比较两个概率分布,把他们的两个分位数放在一起比较。首先 选好分位数间隔。图上的点(x,y)反映出其中一个第二个分布(y坐标)的分位数和与之对应的第一分布(x坐标)的 相同分位数。因此,这条线是一条以分位数间隔为参数的曲线。用概率分布的分位数进行正态性考察,如果样本数对应的总体分布确为正态分布,则在Q-Q 图中,样本数据对应的散点应基本落在原点出发的 45°线附近。

实验步骤

实验步骤与P-P图相似

  1. 分析(A)

  2. 描述统计(E)

  3. Q-Q图

  4. 选择需要检验的变量

  5. 检验分布选择正态分布
    基于spss的正态分布正态性检验_第5张图片
    实验结果:
    基于spss的正态分布正态性检验_第6张图片

     可以看出数据散点基本落在原点出发的45°线附近,所以样本数据服从正态分布。
    

K-S 检验

将需要做统计分析的数据和另一组标准数据进行对比,求得它和标准数据之间的偏差的方法。一般在K-S检验中,先计算需要做比较的两组观察数据的累积分布函数,然后求这两个累积分布函数的差的绝对值中的最大值D。最后通过查表以确定D值是否落在所要求对应的置信区间内。若D值落在了对应的置信区间内,说明被检测的数据满足要求。反之亦然。用K-S作正态性检验是通过对比数据序列与标准正态分布有没有显著性差异来判断序列是否满足正态分布。通过比较检测显著性水平 P 值,P>0.05,说明与正态性没有显著差异,成正态性分布。

实验步骤

  1. 分析(A)

  2. 非参数检验(N)

  3. 单样本(O)

  4. 选择需要检验的变量
    基于spss的正态分布正态性检验_第7张图片
    实验结果:
    基于spss的正态分布正态性检验_第8张图片

     K-S 检验的显著性 P=0.088>0.05,接受销售额的分布为正态分布的零假设,所以销售额基本成正态性分布。 	
    

描述法(偏度和峰度系数检验)

偏度(skewness)
是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。
正态分布的偏度为0,两侧尾部长度对称。若以bs表示偏度。bs<0称分布具有负偏离,也称左偏态;bs>0称分布具有正偏离,也称右偏态;而bs接近0则可认为分布是对称的。

峰度(Kurtosis)
与偏度类似,是描述总体中所有取值分布形态陡缓程度的统计量。
这个统计量需要与正态分布相比较,峰度为0表示该总体数据分布与正态分布的陡缓程度相同;峰度大于0表示该总体数据分布与正态分布相比较为陡峭;峰度小于0表示该总体数据分布与正态分布相比较为平坦, 峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。

描述法即通过描述数据偏度(K)和峰度(W)系数检验数据的正态性。理论上讲,标准正态分布偏度和峰度均为 0,但现实中数据无法满足标准正态分布,因而如果峰度绝对值小于 10 并且偏度绝对值小于 3,则说明数据虽然不是绝对正态,但基本可接受为正态分布。

实验步骤

  1. 分析(A)

  2. 描述统计(E)

  3. 描述(D)

  4. 选择需要检验的变量

  5. 在选项窗口里如图勾选
    基于spss的正态分布正态性检验_第9张图片
    实验结果:
    基于spss的正态分布正态性检验_第10张图片

     可以看出销售额的峰度绝对值为 0.289<10,且偏度绝对值 0.872<3,所以基本可接受数据为正态分布。 
    

你可能感兴趣的:(统计,spss,正态分布,正态性检验)