统计学之方差分析

一、基本原理

从形式上看,方差分析是比较多个总体的均值是否相等,但本质上它所研究的是分类自变量对数值因变量的影响。

当检验多个总体的均值是否相等时,方差分析是更有效的统计方法。由于是通过对数据误差的分析来判断均值是否相等,故名方差分析。

考虑一个例子:一家超市连锁店进行了一项研究,想确定超市所在的位置和竞争者的数量对销售额是否有显著影响,将超市位置分为3类,竞争者数量分为4类。

表1 超市位置、竞争者数量和销售额数据

统计学之方差分析_第1张图片

 

如果只考虑“超市位置”对销售额是否有显著影响,实际上也就是要判断不同位置超市的销售额均值是否相同。若它们的均值相同,意味着“超市位置”对销售额没有显著影响;若均值不同,意味着有显著影响。

二、误差分析

虽然我们是通过比较不同位置超市销售额的均值是否相同来判断其影响的,但在比较均值时,则需要借助于方差,也就是通过对数据误差来源的分析来判断均值是否相同,进而分析超市位置对销售额是否有显著影响。

(一)误差分解

首先,所抽取的全部36家超市的销售额是不同的,这种反映全部观测数据的误差成为总误差

其次,处于相同位置上的超市,它们的销售额也是不同的。例如商业区中所抽取的12家超市的销售额就不一样,因此同一位置上超市销售额之间的差异可以看成是随机因素影响造成的随机误差,即组内误差,也称为残差,反映了样本数据自身的差异程度。

最后,处在不同位置上的超市之间销售额也是不同的,来自样本之间数据的这种误差称为组间误差

 

(二)分析前提

进行方差分析时,对数据有3个基本假定,即正态性、方差齐性和独立性。

  1. 正态性。检验总体是否服从正态分布的方法有很多,包括对样本数据做直方图、茎叶图、箱线图、正态概率图进行描述性判断,也可以进行非参数检验。
  2. 方差齐性。对于分类变量的k个水平,要求不同位置超市的销售额的方差都相同。
  3. 独立性。每个样本数据是来自因子各水平的独立样本。

    在上述3个假定中,方差分析对独立性的要求比较严格,若该假设得不到满足,方差分析的结果往往会受到较大影响。而对正态性和方差齐性的要求相对比较宽松,当正态性得不到满足和方差略有不齐时,对分析结果的影响不是很大。

三、单因子方差分析

只考虑一个分类型自变量影响的方差分析称为单因子方差分析。

(一)提出假设

统计学之方差分析_第2张图片

 

(二)构造检验的统计量

通过组间方差和组内方差构造统计量。组间方差除以组内方差的比值服从F分布。

统计学之方差分析_第3张图片

 

(三)做出决策

计算出统计量F的P值(也可以将统计量的值F与给定显著性水平α的临界值进行比较)并做出决策。若P<α,拒绝原假设。

你可能感兴趣的:(统计学,概率论,数据挖掘,人工智能,算法)