统计学习:ANOVA(方差分析)(1)

统计学习

最近在处理数据的过程中,越发发觉自己理论知识的薄弱,因此,开始了这一系列的帖子,记录自己的理论补充过程,同时方便后来人理解。

ANOVA(方差分析)

方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。

定义

方差分析(ANOVA)又称“变异数分析”或“F检验”,是由R.A.Fister发明的,用于对两个及两个以上的样本集合的统计特性:平均数差别的显著性检验 。
###原理
方差分析的基本假设是 不同样本组的平均数间的差异基本来源有两个:
(1) 实验变量,即样本的主要区别的造成的差异(例如,男和女),称为组间差异。用所有变量在各自己组的均值与所有变量糅合在一块儿总均值之偏差平方和的总和表示,记作SSb,其自由度为dfb。
(2) 随机误差,如测量误差造成的差异或每个个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度为dfw。
总偏差平方和 SSt = SSb + SSw。
组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,一种情况是实验条件没有作用,即各组样本均来自分布相同的同一总体,MSb/MSw≈1。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MSb>>MSw(远远大于1)。
MSb/MSw比值构成F分布。用F值与其临界值比较,作为在给定显著性推断各样本是否来自相同的总体的依据。

方差分析的基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控变量对研究结果显著性的大小。

举例分析:

下面我们用一个简单的例子来说明方差分析的基本思想:
如某克山病区测得11例克山病患者和13名健康人的血磷值(mmol/L)如下:
患者:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11
健康人:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87
问该地克山病患者与健康人的血磷值是否不同?
从以上资料可以看出,24个患者与健康人的血磷值各不相同,如果用离均差平方和(SS)描述其围绕总均值的变异情况,则总变异有以下两个来源:
组内变异,即由于随机误差的原因使得各组内部的血磷值各不相等;
组间变异,即由于克山病的影响使得患者与健康人组的血磷值均值大小不等。
而且:SS总=SS组间+SS组内 v总=v组间+v组内
如果用单位均方(离差平方和除以自由度)代替离差平方和以消除各组样本数不同的影响,则方差分析就是用组间单位均方去除组内单位均方的商(即F值)与1相比较,若F值接近1,则说明各组均值间的差异没有统计学意义,若F值远大于1,则说明各组均值间的差异有统计学意义。实际应用中检验假设成立条件下F值大于给定显著性分布的概率可通过查阅F界值表(方差分析用)获得。

ANOVA和Ttest以及Ttest2的区别

1,Ttest检验一般针对的是对来自同一分布的数据的均值进行检验,即检验该组数据的分布的均值是否为0,(可以构造统计量,验证分布的均值是其他值)。它重点比较的是这组数据分布的均值与你给他的均值,区别的显著性,如检验一组人的身高是否为之前的值等等。

2,Ttest2检验一般针对的是对来自两个不同样本的分布的分布均值的检验,原始零假设是均值相等,他不关心这两组数据具体来自于什么分布,比如,一组人的身高和体重数据,该检验假设的是这两组分布的均值是否相等,即身高和体重的平均数是否相等。

3,单因素ANOVA
单因素方差分析,是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。通俗地讲就是分析变量x的变化对变量y的影响的显著性,所以一般变量之间存在某种影响关系的,验证一种变量的变化对另一种变量的影响显著性的检验。
一般的,方差分析都是配对的。
如果从计算来看,独立样本之间不需要进行计算,只在本组中进行计算均值、标准差等,而方差分析中,要计算数据之间的组间差异和组内差异等。

4多因素方差分析
多因素方差分析即分析多种因素对某一变量的影响有多大的统计分析。而协方差分析是多种影响因素下,在不考虑某一种因素下,其他因素对该变量的影响有多大。比如,玉米的销量、玉米的价格、爆米花的价格(例子不是很好,但大概就是这个意思,就是a对b有相应,b又对c有影响,但a对c不一定有影响),就是爆米花的价格越高,那么玉米的销量也是 越多的,所以它们之间成正比关系。但这显然是没有相关性的。因为爆米花的价格和玉米的销量均和玉米的温度有关,针对这类问题的分析时要用协方差分析。


参考:
spss中t检验和anova的区别、
单因素方差分析
方差分析表

你可能感兴趣的:(统计学)