ANOVA方差分析

https://wenku.baidu.com/view/01e7060f0975f46526d3e153.html

https://www.jianshu.com/p/f5f54a39cb19

例子:
某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同,先从地理位置相似、经营规模相仿的五家超级市场上收集了前一期该种饮料的销售量情况,见表1

 

ANOVA方差分析_第1张图片

 

问饮料的颜色是否对销售量产生影响。

一、方差分析术语

1.因素
因素是一个独立的变量,也就是方差分析研究的对象,也称为因子。如:例1中,我们要分析饮料的颜色对饮料的销售量是否有影响,在这里,“饮料的颜色”是所要检验的对象,它就是一个因素。在有的书中把因素称为“因子”。
2.水平
因素中的内容称为水平,它是因素的具体表现。如:例1中“饮料的颜色”这一因素中的水平有四个,即饮料的四种不同颜色:无色、粉色、桔黄色、绿色;它们是“饮料的颜色”这一因素的四种具体表现。
因素的每一个水平可以看作是一个总体,比如:无色、粉色、桔黄色、绿色饮料可以看作是四个总体。
3.控制变量
在方差分析中,能够人为控制的影响因素称为控制因素,或控制变量;如:例1中,“饮料的颜色”对于饮料的销售量而言,是能够人为控制的影响因素,称为控制变量。
4.随机变量
在方差分析中,人为很难控制的影响因素称为随机因素,或随机变量;如:例1中,“人们对不同颜色的偏爱”对于饮料的销售量而言,是人为很难控制的影响因素,称为随机变量。
5.观察变量与观察值
在方差分析中,受控制因素和随机因素影响的事物,称为观察变量。在每个水平下得到的样本数据称为观察值。如:例1中,销售量是观察变量,在每个饮料颜色下得到的样本数据(即表10-1中的数据)就是观察值。

二、方差分析的原理

    从方差分析的目的来看,是要检验各个水平的均值μ1、μ2、…、μm是否相等(m为水平个数),而实现这个目的的手段是通过方差的比较(即考察各观察数据的差异)。
在变量的观察值之间存在着差异。差异的产生来自于两个方面。
一个方面是由因素中的不同水平造成的,称之为系统性差异(或系统性误差)。如:饮料的不同颜色带来不同的销售量。
    另一个方面是由于抽选样本的随机性而产生的差异,称之为随机性差异(或随机性误差)。如:相同颜色的饮料在不同的商场销售量也不同。
两个方面产生的差异可以用两个方差来计量。
    一个叫组间方差,即水平之间的方差,是衡量不同总体下各样本之间差异的方差。在组间方差里,既包括系统性误差,也包括随机性误差。如:在例1中,不同颜色的饮料在不同地点(超市)产品销售量之间的差异既有系统性误差(即由于人们对不同颜色的偏爱造成的差异),也有随机性误差(即由于抽样的随机性造成的差异)。不同颜色的饮料在不同地点(超市)产品销售量之间的方差即为组间方差。
    另一个叫组内方差,即水平内部的方差,是衡量同一个总体下样本数据的方差。在组内方差里仅包括随机性差异。如:在例1中,可以把同一个颜色的饮料在不同地点(超市)产品销售量之间的差异看成是随机因素的影响,同一个颜色的饮料在不同地点(超市)产品销售量之间的方差即为组内方差。
    如果不同的水平对结果没有影响,如: 饮料的不同颜色对销售量无影响,那么在水平之间的方差中,就仅仅有随机因素影响的差异,而没有系统性因素影响的差异。这样一来,组间方差与组内方差就应该非常接近,两个方差的比值就会接近于1;反之,如果饮料的不同颜色对销售量有影响,在组间方差中就不仅包括了随机性误差,也包括了系统性误差,这时,组间方差就会大于组内方差,两个方差的比值就会大于1。当这个比值大到某种程度时,我们就可以作出判断,说不同水平之间存在着显著性差异。一次,方差分析就是通过不同方差的比较,作出接受原假设或拒绝原假设的判断。如:例1中,判断饮料的不同颜色对销售量是否有显著性影响的问题,实际上也就是检验销售量的差异主要是由于什么原因所引起的。如果这种差异主要是系统性误差,我们就说饮料的不同颜色对销售量有显著性影响。

三、思路

从表1中看到,20个数据各不相同,其原因可能有两个方面:
一是销售地点不同的影响。即使是相同颜色的饮料,在不同超市的销售量也是不同的。但是,由于这五个超市地理位置相似、经营规模相仿,因此,可以把不同地点产品销售量的差异看成是随机因素的影响。
二是饮料颜色不同的影响。
    即使在同一个超市里,不同颜色的饮料的销售量也是不同的。哪怕它们的营养成分、味道、价格、包装等方面的因素都相同,但销售量也不相同。这种不同,有可能是由于抽样的随机性造成的,也有可能是由于人们对不同颜色的偏爱造成的。
    于是,上述问题就归结为检验饮料颜色对销售量是否有影响的问题。我们可以令μ1、μ2、μ3、μ4分别为四种颜色饮料的平均销售量,检验它们是否相等。如果检验结果显示μ1、μ2、μ3、μ4不相等,则意味着不同颜色的饮料来自于不同的总体,表明饮料颜色对销售量有影响;反之,如果检验结果显示μ1、μ2、μ3、μ4之间不存在显著性差异,则意味着不同颜色的饮料来自于相同的总体,可认为饮料颜色对销售量没有影响。

四、计算分析

第一步、建立假设

原假设 H0:μ1=μ2=μ3=μ4;即假设颜色对销售量没有影响。

备择假设H1: μ1、μ2、μ3、μ4不全相等;即假设四个配方颜色对销售量有影响。

第二步、计算水平均值

无色饮料销售量均值=136.6÷5=27.32箱

粉色饮料销售量均值=147.8÷5=29.56箱

桔黄色饮料销售量均值=132.2÷5=26.44箱

绿色饮料销售量均值=157.3÷5=31.46箱

第三步、计算全部观察值的总均值

各种颜色饮料销售量总的样本平均数=(136.6+147.8+132.2+157.3)÷20=28.695箱

 

第四步、计算离差平方和

ANOVA方差分析_第2张图片

ANOVA方差分析_第3张图片

 

第五步、构造统计量并计算检验统计量的样本值

 

 

第六步、确定检验规则、列出方差分析表、做出统计决策
P-值规则:

根据算得的检验统计量的样本值(F值)算出P-值=0.000466(见表10-4)。由于P-值=0.000466<显著水平标准=0.05,所以拒绝H0,接受备择假设H1,即通过检验知,μj不全相等,说明饮料的颜色对销售量有显著影响。
临界值规则

根据给定的显著水平a=0.05,查表得临界值为3.24。因为F=10.486>3.24,检验统计量的样本值落入拒绝域,所以拒绝H0,接受备择假设H1,即通过检验知,μj不全相等,说明饮料的颜色对销售量有显著影响。
显著水平
举例说明:某药品商宣传能治愈某病的概率是90%。(即原假设)一个医生不相信宣传,于是做个了实验验证,15个人治好了11个人。而15个人应该能够治愈13.5个人。那么宣传是不是骗人的呢?这时候用假设性检验来验证(采用显著性水平为5%检验),假设这15个人服从二项分布,P(X<=11)的概率等于5.6%,这个p值大于显著性水平。而我们的显著性水平是5%,也就是说,小于5%的是个小概率事件,治愈了11个人并不是一个小概率事件,在治愈率90%的情况下你是有可能刚好抽到治愈11个人的情况。我们没有足够的证据证明药品商是骗人的,所以我们接受他的宣传(接受原假设),即治愈率90%。这时候有人会问,如果15个人治愈了9个人呢,我们经过计算发现,p值小于5%,这时候处于拒绝域。因为,你们宣传治愈率90%,可是我做了抽样,发现15个人只治好了9个人,概率太小了,基本不可能遇到的情况(小概率事件)怎么刚好让我遇到?所以,我们有足够的证据证明宣传是假的。这时候我们采用备选假设,推翻原假设。个人理解显著水平是鉴别两个假设之间大小概率事件的阈值。

p值大于显著水平,支持原假设,F值大于临界值(由显著水平得到),拒绝原假设。

你可能感兴趣的:(ANOVA方差分析)