excel统计分析——为什么要做正态性检验

参考资料

正态性检验的几个知识点

如何判断一个样本是否来自正态分布的总体?_临床研究_实用技巧_科研星球

马兴华,张晋昕.数值变量正态性检验常用方法的对比[J].循证医学,2014,14(02):123-128.

正文

1、为什么要做正态性检验?

        正态性检验主要用于判断计量资料是否服从或近似服从正态分布。因为很多常见的统计学方法都要求数据满足正态性,如常见的t检验、单因素方差分析等。在考虑采用上述方法时,要对数据进行正态性检验。

        如果数据明显不服从正态分布,但由于我们没有正态性检验的结果,直接使用了t检验、单因素方差分析等参数检验的方法,有可能导致得到的统计结论可能会无效。

  当进行两组及多组间的比较,需要分组检验正态性,而不是合并进行!只要其中一组不满足正态性,就判断该变量不符合正态分布。

2、是否样本量足够大就可以不用做正态性检验了?

        是不是只要样本量足够大,就可以默认数据满足正态性了?

        这种观点的起源是因为对中心极限定理的误解。事实上,中心极限定理说的是:不管总体数据的分布是什么样的(可能是正态,也可能偏态),如果从总体中多次抽样,对于每个抽样样本计算统计量(如均值、中位数), 当每次抽样例数足够大,样本的均值或中位数近似服从正态分布。并不是说:样本量足够大,这个样本就服从正态分布。

3、正态分布的主要特征是什么?

        集中性:正态曲线的高峰位于正中央,即均数所在的位置。
        对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
        均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
        正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ):均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平。

4、正态性检验有哪些方法?

(1)经验判断法

        一个正态分布的资料,离散趋势一般不会太明显,体现在均数和标准差大小上,标准差一般不会大于均数,如果标准差与均数相当或者大于均数,在样本量不是太小的情况下(一般N大于20),那我们一般认为这种情况总体不符合正态分布。但请各位读者注意这只是经验性判断方法,不能上升为放之四海而皆准的理论。严格讲,标准差仅说明数据的离散趋势大小,与样本对应的总体分布无确定对应关系。

        这种经验主要用于对二手数据的粗略判断,对于原始数据还是要通过图示法进行正态性检验。

(2)图形法

       ①直方图、茎叶图和箱线图。
       把频率直方图和正态分布的概率密度函数曲线相比,可以直观地呈现正态逼近效果。
       茎叶图的用途同直方图,仅适合样本量较小的情况。
       箱线图主要用于多组数据平均水平和变异程度的直观比较,每一组数据均可呈现其最小值、下四分位数、平均值、上四分位数数据、最大值。如果一组数据服从正态分布,其下四分位数和上四分位数应相对于均值上下对称。

②Q-Q图和P-P图
        二者是基于整天分布假定的统计图。
        P-P图根据变量的累积概率对应于所指定的理论分布累积概率绘制的散点图,用于直观地考察样本数据是否服从某一概率分布。如果样本数据服从所假定的分布,则散点较好地落在从原点出发的45°线附近。
        Q-Q图的结果与P-P图相似,只是P-P图是用概率分布的累计比进行正态性考察,而Q-Q图是用概率分布的分位数进行正态性考察。同P-P图一样,如果样本数据对应的总体分布确为正态分布,则在Q-Q图中,样本数据对应的散点应基本落在原点出发的45°线附近。

(3)统计指标法

①偏度、峰度检验
        理论上,正态分布的偏度系数为0,峰度系数为3(超值峰度为0),利用正态分布的这两个特性可以检验样本数据所来自总体的正态性。

②非参数检验:S-W检验、K-S检验、A-D检验、CVM检验
        正态性检验,最直观的想法就是拿样本数据与期望的理论分布进行对比,如果差异不大,则可以认为数据服从正态分布,Kolmogorov-Smirnov检验(即“K-S检验”)方法就是这样的。K-S检验更适合大样本数据。

        CVM检验的思想基本与K-S检验一致,与K-S检验相比,CVM检验统计量度量的是经验累积分布函数和目标累积分布函数的平方距离的积分。就是把每个数据点的差求平方以后相加,得到总的分布偏差,这样就考虑了所有的差异点,而不是像K-S检验那样只考虑一个最大的。

        S-W检验,精度较高,可适用于8≤n≤50的小样本数据,Royston的改进方法把其适用范围扩展到5000,因此可以说S-W检验几乎适用于所有的正态检验。正态性检验可优先考虑此方法。

       当总体分布参数未知,而样本量小到5≤n≤25范围的情况下,Anderson-Darling检验依旧可以较好地实现正态性检验,能敏感地揭示资料潜在的不对称性。  

(4)方法比较

  非参数检验对数据的要求非常严格,有时非参数检验的方法判定数据不符合正态分布,但是事实上数据是符合正态分布的,使用直方图可以直观判断出来。因此,我们常建议研究者通过绘制直方图、Q-Q图等来判断数据的正态性。但图示法存在主观性的问题,遇到一些不确定的情况,大家需要结合专业背景知识综合多个方法进行判断,当然,也可以咨询统计学专家。

5、数据不满足正态性检验,有哪些处理方法?

       正态性检验那么重要,但是我的数据就是不服从正态分布怎么办呢?可以采用非参数检验。如用于两组独立样本的Mann-Whitney U test,多组独立样本的Kruskal-Wallis test。或者,也可以做一些数据转换,如对数转换,使得转换后的数据服从正态分布,从而继续采用参数检验。

你可能感兴趣的:(算法)