方差分析(analysis of variance,ANOVA)最早由英国统计学家R. A. Fisher 提出,主要用于两个及两个以上样本均数差别的显著性检验。通过检验多个总体均值是否相等来判断是否有显著影响,即通过分析数据的误差判断各总体均值是否相等。
方差分析的基本思想和原理基于两类误差。也就是随机误差和系统误差1。
• 随机误差——因子的同一处理(总体)下, 样本各观察值之间的差异,这种差异可以看成是随机因素的影响, 称为随机误差。
• 系统误差——因子的不同处理(不同总体)下, 各观察值之间的差异,这种差异可能是由于抽样的随机性所造成的, 也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的, 称为系统误差。
所以方差分析的实质是——比较两类误差,以检验均值是否相等;比较的基础是方差比;如果系统(处理)误差明显地不同于随机误差,则均值就是不相等的;反之,均值就是相等的。这里数据的误差用平方和(sum of squares)表示。
• 组内平方和(Within Groups)——因子的同一处理(同一个总体)下样本数据的平方和。组内平方和只包含随机误差。
• 组间平方和(Between Groups)——因子的不同处理(不同总体)下各样本之间的平方和。组间平方和既包括随机误差, 也包括系统误差。
(1)各总体的方差必须相等(方差齐性):各组观察数据是从具有相同方差的总体中抽取的(Bartlett检验/Levene检验/Flinger-Killeen检验)。
(2)各总体必须服从正态分布:对于因子的每一个处理, 其观察值是来自服从正态分布总体的简单随机样本(Shapiro检验)。
(3)各观测值相互独立(可以通过控制抽样过程来控制独立性,无具体的检验方法)。
单因素方差分析主要用于研究定性变量或定序变量(自变量)与定量变量(因变量)之间的关系。影响因素变量的取值被称为影响因素的水平2。
单因素方差分析是通过比较各个类别的组内差异和类别之间的组间差异大小来确定变量之间是否相关。
(1)独立:各组数据相互独立,互不相关;
(2)正态:各组数据服从正态分布;
(3)方差齐性:各组方差相等。
有的时候,因变量可能受到来自一个以上的因素的影响,最典型的就是双因素方差分析。假如因素A与因素B没有联合效应,则称为无交互作用的双因素方差分析。
因素之间的交互作用在现实中很常见,比如胖胖的人喜欢蓝色的衣服,南方的人更喜欢喝雪花啤酒等,前者是体重和颜色的交互作用,后者是地区和啤酒品牌的交互作用。
因此,如果两个因素联合在一起对因变量有显著的影响,则称这样的方差分析为有交互作用的方差分析。
目前有许多统计工具和软件都可以实现方差分析,以下介绍几重最基础的操作。
可参阅:R语言——方差分析,其内容较为详细。
应用统计学与R语言实现学习笔记(八)——方差分析 ↩︎
数据分析技术MOOC ↩︎