SPSS的方差分析

方差分析的概念

  • 之前我们讨论了如何对一个总体及两个总体的均值进行检验,如我们要确定两种销售方式的效果是否相同,可以对零假设进行检验。但有时销售方式有很多种,这就是多个总体均值是否相等的假设检验问题了,所采用的方法是方差分析。
  • 表5-1 某公司产品销售方式所对应的销售量
    SPSS的方差分析_第1张图片
    方差分析中有以下几个重要概念。
    (1)因素(Factor):是指所要研究的变量,它可能对因变量产生影响。如果方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对多个因素进行,称为多因素方差分析。
    (2)水平(Level):水平指因素的具体表现,如销售的四种方式就是因素的不同取值等级。
    (3)单元(Cell):指因素水平之间的组合。
    (4)元素(Element):指用于测量因变量的最小单位。一个单元里可以只有一个元素,也可以有多个元素。
    (5)交互作用(Interaction):如果一个因素的效应大小在另一个因素不同水平下明显不同,则称两因素间存在交互作用。
    在表5-1中,要研究不同推销方式的效果,其实就归结为一个检验问题,设为第i(i=1,2,3,4)种推销方式的平均销售量,即检验原假设是否为真。从数值上观察,四个均值都不相等,方式二的销售量明显较大。
    从表5-1可以看到,20个数据各不相同,这种差异可能是由以下两方面的原因引起的。
  • 一是推销方式的影响,不同的方式会使人们产生不同消费冲动和购买欲望,从而产生不同的购买行动。这种由不同水平造成的差异,称之为系统性差异。
    在这里插入图片描述
  • 二是随机因素的影响。同一种推销方式在不同的工作日销量也会不同,因为来商店的人群数量不一,经济收入不一,当班服务员态度不一,这种由随机因素造成的差异,我们称之为随机性差异。
    两个方面产生的差异用两个方差来计量:一是变量之间的总体差异,即水平之间的方差。二是水平内部的方差。前者既包括系统性差异,也包括随机性差异;后者仅包括随机性差异。
  • (1)各样本的独立性。即各组观察数据,是从相互独立的总体中抽取的。
    (2)要求所有观察值都是从正态总体中抽取,且方差相等。在实际应用中能够严格满足这些假定条件的客观现象是很少的,在社会经济现象中更是如此。但一般应近似地符合上述要求。
    水平之间的方差(也称为组间方差)与水平内部的方差(也称组内方差)之间的比值是一个服从F分布的统计量
    F = 水平间方差 / 水平内方差 = 组间方差 / 组内方差

单因素方差

  • 单因素方差分析也叫一维方差分析,它用来研究一个因素的不同水平是否对观测变量产生了显著影响,即检验由单一因素影响的一个(或几个相互独立的)因变量由因素各水平分组的均值之间的差异是否具有统计意义。
  • 1.使用条件
    应用方差分析时,数据应当满足以下几个条件:
    在各个水平之下观察对象是独立随机抽样,即独立性;
    各个水平的因变量服从正态分布,即正态性;
    各个水平下的总体具有相同的方差,即方差齐;
  • 2.基本原理
    方差分析认为:
    SST(总的离差平方和)=SSA(组间离差平方和)+SSE(组内离差平方和)
    如果在总的离差平方和中,组间离差平方和所占比例较大,说明观测变量的变动主要是由因素的不同水平引起的,可以主要由因素的变动来解释,系统性差异给观测变量带来了显著影响;反之,如果组间离差平方和所占比例很小,说明观测变量的变动主要由随机变量因素引起的。SPSS将自动计算检验统计量和相伴概率P值,若P值小于等于显著性水平α,则拒绝原假设,认为因素的不同水平对观测变量产生显著影响;反之,接受零假设,认为因素的不同水平没有对观测变量产生显著影响。
  • 3.多重比较检验问题
    多重比较是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。
  • 4.各组均值的精细比较
    多重比较检验只能分析两两均值之间的差异性,但是有些时候需要比较多个均值之间的差异性。具体操作是将其转化为研究这两组总的均值是否存在显著差异,即 与 是否有显著差异。这种比较是对各均值的某一线性组合结构进行判断,即上述检验可以等价改写为对(1/2u1+1/2u2-1/2u3-1/2u4=0)进行统计推断。这种事先指定均值的线性组合,再对该线性组合进行检验的分析方法就是各组均值的精细比较。显然,可以根据实际问题,提出若干种检验问题。

例子

  • 实例内容
    某机构的各个级别的管理人员需要足够的信息来完成各自的任务。最近,一项研究调查了信息来源对信息传播的影响。在这项特定的研究中,信息来源是上级、同级和下级。在每种情况下,对信息传播进行测度:数值越高,说明信息传播越广。检验信息来源是否对信息传播有显著影响?你的结论是什么?
  • 2.实例操作
    由于不同的信息来源可能导致信息传播测度不同。本案例中,信息来源是因素,“上级、同级和下级”是因素的三种不同水平,信息传播测度是因变量(观测变量)。由于这里有三个水平,因此不能采用两样本的均值检验过程,故考虑采用单因素方差分析法。
    进行如下假设检验:
    H0:三种不同信息来源对信息传播测度平均值没有显著性影响;
    H1:三种不同信息来源对信息传播测度平均值存在显著性影响。
    选择菜单栏中的【分析】 →【比较均值】→【单因素ANOVA】命令,弹出【单因素ANOVA】对话框。
  • 3.结果与分析
    (1)方差齐性检验
    SPSS的结果报告中首先列出了方差分析检验结果。由于这里采用的是Levene检验法,故表格首先显示Levene统计量等于
    0.055。由于概率P值0.946明显大于显著性水平,故认为这三组数据的方差是相同的,满足方差分析的前提条件。
    SPSS的方差分析_第2张图片

(2)单因素方差分析表
由方差分析可知,F统计量为1.841,概率P值为0.157>a,接收原假设,三种不同信息来源对信息传播测度平均值存在显著性影响。
SPSS的方差分析_第3张图片

多因素方差分析

  • 1.方法概述
    多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。它不仅能够分析多个因素对观测变量的独立影响,更能够分析多个因素的交互作用能否对观测变量产生显著影响。例如,对稻谷产量进行分析时,不仅单纯考虑耕地深度和施肥量都会影响产量,但同时深耕和适当的施肥可能使产量成倍增加,这时,耕地深度和施肥量就可能存在交互作用。
  • 2.基本原理
    由于多因素方差分析中观察变量不仅要受到多个因素独立作用的影响,而且因素其交互作用和一些随机因素都会对变量产生影响。因此观测变量值的波动要受到多个控制变量独立作用、控制变量交互作用及随机因素等三方面的影响。以两个因素为例,可以表示为:
    在这里插入图片描述
    其中,Q表示各部分对应的离差平方和。多因素方差分析比较占 的比例,以此推断不同因素以及因素之间的交互作用是否给观测变量带来显著影响。
  • 3.软件使用方法
    多因素方差分析仍然采用F检验,其零假设是H0:各因素不同水平下观测变量的均值无显著差异。SPSS将自动计算F值,并依据F分布表给出相应的概率P值。我们可以根据相伴概率P值和显著性水平α的大小关系来判断各因素的不同水平对观测变量是否产生了显著性影响。

例子

1.概述
假设某一杂志的记者要考察职业为财务管理、计算机程序员和药剂师的男女雇员其每周的薪金之间是否有显著性差异。从每种职业中分别选取了5名男性和5名女性组成样本,并且记录下来样本中每个人的周薪金(单位:美元)。所得数据见表5-11所示。请你分析职业和性别对薪金有无显著影响。
SPSS的方差分析_第4张图片
2.SPSS流程
由于薪金水平的高低和所从事的职业、性别等因素都有关系。因此这里要考虑两个因素水平下的薪金差异问题,即建立双因素的方差分析模型。本案例中,职业和性别是两个影响因素,而每周薪金是因变量。同时,我们也要考虑职业和性别这两个因素之间有无交互作用。具体操作步骤如下。
SPSS的方差分析_第5张图片
SPSS的方差分析_第6张图片
SPSS的方差分析_第7张图片
3.结果分析
(1)描述性统计
从数值大小比较看,不少职业和性别之间每周薪金差异较大,说明有进一步采用方差分析的必要。
SPSS的方差分析_第8张图片
(2)方差齐性检验
SPSS的结果报告接着列出了方差齐性检验结果如下表。由于这里采用的是Levene检验法,故表格首先显示Levene统计量等于0.383。由于概率P值0.856明显大于显著性水平,故认为样本数据的方差是相同的,满足方差分析的前提条件。
SPSS的方差分析_第9张图片
(3)双因素方差分析检验表
第一行的Corrected Model是对所用方差分析模型的检验,其原假设为模型中所有的影响因素均无作用,即职业、性别及两者的交互作用等对每周薪金都无显著影响。该检验的P值远小于0.05,因此所用模型有统计学意义,以上所提到的因素中至少有一个是有显著差异的,但具体是哪些则需要阅读后面的分析结果。
第二行是对模型中常数项是否等于0进行的检验,虽然根据概率P值判断它显著不等于零,但它在分析中没有实际意义,忽略即可。 第三、四行分别是对职业、性别的影响效应进行的检验,其零假设分别是:职业或性别对薪金没有显著性差异。但这两行对应的相伴概率P都接近0,显然小于显著性水平0.05。可见,两者分别对薪金有显著性影响。
第五行是对职业和性别的交叉作用进行检验,可见P为0.011,小于显著性水平,表示交互作用对观测变量每周薪金有显著性影响作用。
从上面方差分析结果看到,职业、性别及其两者的交互项都直接影响了每周薪金的高低,存在统计学意义下的显著差异。
SPSS的方差分析_第10张图片
(4)多重比较检验结果
下表显示了不同职业之间每周薪金均值比较结果。表中的星号表示在显著性水平0.05的条件下,相应的两组均值存在显著性差异。可以通过比较表中概率P值大小来判断职业之间的薪金水平是否有显著差异。从结果来看,药剂师和其他两个职业的每周薪金存在显著性差异。该职业的平均薪金要明显高于财务管理和计算机程序员职业。
SPSS的方差分析_第11张图片

协方差分析

  • 1.方法概述
    无论是单因素方差分析还是多因素方差分析,它们都有一些人为可以控制的因变量。但在实际问题中,有些随机因素是很难人为控制的,但它们又会对结果产生显著的影响。如果忽略这些因素的影响,则有可能得到不正确的结论。
    利用协方差分析就可以完成这样的功能。协方差分析是将那些很难控制的因素作为协变量。在排除协变量影响的条件下,分析因素变量对观察变量的影响,从而更加准确地对因素变量进行评价。这种方法要求协变量应是连续数值型变量,多个协变量间互相独立,且与因素变量之间也没有交互影响。
  • 2、基本原理
    在协方差分析中,将观察变量总的离差平方和分解为由因变量引起的、由因变量的交互作用引起的、由协变量引起的和由其他随机因素引起的。以双因素协方差分析为例,观察变量总的离差平方和可以分解为:
    在这里插入图片描述

也可以理解为:
在这里插入图片描述
即在扣除了协变量对观察变量的影响后,分析因变量对观察变量的影响。协方差分析也采用F检验法,处理计算思路和多因素方差分析相似。
确定是否存在协变量
采用协方差分析时,首先就应该明确是否存在某些因素对因变量造成影响,特别是一些难以人为控制的因素,例如年龄、身高和体重等等,它们的不同水平可能对因变量产生较为显著的影响。此时可以绘制图形,观察协变量和因变量之间有无关联性。若从图形可以判断两者有显著关系,则可以引入协方差分析。但这也是一种辅助判断方法,只有通过协方差检验结果才能更清晰说明这种协变量的存在性。

  • 3 实例操作
    案例中需要分析体重对人体的血清胆固醇有无直接影响,同时体重这个因素分为正常组和超重组两个水平,因此可以考虑单因素方差分析模型。但如果仅分析体重的影响作用,而不考虑实验对象年龄的差异,那么得出的结论可能是不准确的。这是因为年龄的大小在一定程度上会影响人体的血清胆固醇含量的高低。因此,为了更准确描述体重对人体的血清胆固醇的影响,就应该尽量排除年龄因素对分析结果的影响。所以将年龄作为协变量引入模型,考虑建立协方差分析模型。在打开或建立数据文件后,具体操作步骤如下。
    某医生欲了解成年人体重正常者与超重者的血清胆固醇是否不同。而胆固醇含量可能与年龄有关系,具体资料数据见表5-17所示。请建立模型分析体重对人体胆固醇含量的影响,同时也要兼顾年龄的因素。
    SPSS的方差分析_第12张图片
    案例中需要分析体重对人体的血清胆固醇有无直接影响,同时体重这个因素分为正常组和超重组两个水平,因此可以考虑单因素方差分析模型。但如果仅分析体重的影响作用,而不考虑实验对象年龄的差异,那么得出的结论可能是不准确的。这是因为年龄的大小在一定程度上会影响人体的血清胆固醇含量的高低。因此,为了更准确描述体重对人体的血清胆固醇的影响,就应该尽量排除年龄因素对分析结果的影响。所以将年龄作为协变量引入模型,考虑建立协方差分析模型。

SPSS的方差分析_第13张图片
SPSS的方差分析_第14张图片
结果分析
(1)描述统计
SPSS的方差分析_第15张图片

SPSS的方差分析_第16张图片
(2)齐性检验
SPSS的结果报告接着列出了方差齐性检验结果表5-20。表格首先显示Levene统计量等于0.818。由于概率P值0.375明显大于显著性水平0.05,故认为两组样本数据的方差是相同的,满足方差分析的前提条件。
SPSS的方差分析_第17张图片
(3)方差分析
下表包括各变差分解的情况、自由度、均方、F统计量值和概率P值。同时为了说明协方差模型的有效性,还进行了单因素方差分析
SPSS的方差分析_第18张图片
SPSS的方差分析_第19张图片
对比上述两表,两种方差分析结果中,因变量的总变量(Corrected Total)都是64.042。同时单因素方差模型中,随机因素的可解释变差等于45.426。但是在协方差模型中,随机因素的可解释变差降低为21.047,这是由于扣除了年龄的影响造成的。这进一步说明了年龄变量对因变量的影响。不仅如此,体重级别可解释的变差由原来的18.615减少为4.458。这也是由于扣除了年龄因素的影响造成的。
综合起来,年龄因素对人体内胆固醇含量有显著的影响;同时,在排除了年龄因素的影响后,不同体重级别对胆固醇含量也存在显著的差异。可以通过描述性统计看到:超重组的胆固醇含量要高于正常组的胆固醇含量。

你可能感兴趣的:(概率论)