统计学基本知识(四)

一、 卡方分布
对分类数据进行分析的统计方法主要是利用卡方分布,也有许多教材将其称为卡方检验。卡方检验的应用主要表现在两个方面:拟合优度和独立性检验。列联表是进行独立性检验的重要工具。
在这里插入图片描述

  1. 卡方统计量
    统计学基本知识(四)_第1张图片
    统计学基本知识(四)_第2张图片
    上图是自由度分别为1、5和10时的卡方分布,可以看出,自由度越小,分布就越向左边倾斜,随着自由度的增加,卡方分布的偏斜程度趋于缓解,逐渐显露出对称性,随着自由度的继续增大,卡方分布将趋近于对称的正态分布。利用卡方统计量换可以对分类数据进行拟合优度检验和独立性检验。
  2. 拟合优度检验
    拟合优度检验使用卡方统计量进行统计显著性检验的重要内容之一。它是依据总体分布情况,计算出分类变量中个类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。例1.1912年4月15日,泰坦尼克号与冰山相撞沉没。当时船上共有2208人,其中男性1738人,女性470人。海南发生后,幸存者共718人,其中男性374人,女性344人,以0.1的显著性水平检验存活状况与性别是否有关。本例中的原假设和备择假设分别为:
    统计学基本知识(四)_第3张图片
    统计学基本知识(四)_第4张图片
    自由度df=R-1,其中R为分类变量类型的个数。本例中分类变量是性别,有男女两个类别,故R=2,于是自由度df=2-1=1.
    在这里插入图片描述
  3. 列联分析:独立性检验
    例2. 一种原料来自三个不同的地区,原料质量被分成三个不同的等级。从这批原料中随机抽取500件进行检验,如下表:
    统计学基本知识(四)_第5张图片
    要求检验各个地区和原料之间是否存在依赖关系?
    统计学基本知识(四)_第6张图片
    计算过程如下表所示:
    统计学基本知识(四)_第7张图片
    在这里插入图片描述
    二、方差分析
    (一) 方差分析引论
    方差分析是研究一个或多个分类型自变量与一个数值型因变量之间关系的主要方法之一。从形式上看,方差分析是比较多个总体的均值是否相等,但本质上它所研究的是变量之间的关系。与一般的假设检验相比,方差分析提高了检验的效率,也增加了分析的可靠性。因为如果想要检验4个总体的均值是否相等,在一般的假设检验下要进行6次检验才能一一验证4个均值是否相等,且在分别检验的过程中会增加犯第一类错误的概率(概率为1-(1-a)^6)。而且增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加(并非均值真的存在差别)。而方差分析方法则是同时考虑所有的样本,因此排除了错误累计的概率,从而避免拒绝一个真实的原假设。
    1.方差分析的一些概念
    例1:为了评价几个行业的服务质量,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本。其中零售业抽取7家,旅游业抽取6家,航空公司抽取5家,家电制造业抽取5家。每个行业中所抽取的这些企业,假定它们在服务对象、服务内容、企业规模等方面基本上是相同的。然后统计出最近一年中消费者对总共23家企业投诉的次数,如下表:
    统计学基本知识(四)_第8张图片
    方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。它是通过对数据误差来源的分析判断不同总体的均值是否相等,进而分析自变量对因变量是否有显著影响。因此进行方差分析时,需要考虑数据误差的来源。在方差分析中,所要检验的对象称为因素或因子。因素的不同表现称为水平或处理。每个因子水平下得到的样本数据称为观测值。如上面的例子中,要分析行业对投诉次数是否有显著影响。这里的行业是因素或因子;零售业、旅游业、航空公司、家电制造业是水平或处理;在每个行业下得到的样本数据(被投诉次数)称为观测值。由于此次试验只有一个因素,四个水平,因此称为单因素四水平试验。来自水平内部的数据误差称为组内误差。组内误差只包含随机误差。来自不同水平之间的数据误差称为组间误差。组间误差是随机误差和系统误差的综合。在方差分析中,数据误差使用平方和表示的。反映全部数据误差大小的平方和称为总平方和,即为SST。反映组内误差大小的平方和称为组内平方和,也称误差平方和或残差平方和,记为SSE。反映组间误差大小的平方和称为组间平方和,也称因素平方和,记为SSA。SST和SSE及SSA之间的关系如下图:
    统计学基本知识(四)_第9张图片
    2.方差分析的基本思想和原理
    用例1来说明。如果不同的行业对投诉次数没有影响,那么在组间误差中只包含随机误差,而没有系统误差。这时,组间误差与组内误差经过平均后的数值(称为均方或方差)就应该很接近,它们的比值就会接近1;反之,如果不同行业对投诉次数有影响,在组间误差中除了包含随机误差,还会包含系统误差,这时组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就会大于1。当这个比值大到某种程度时,就认为因素的不同水平之间存在着显著差异,也就是自变量对因变量有显著影响。
    3.方差分析的基本假定
    正态独立等方差。
    正态——每个总体都应服从正态分布。
    独立——观测值是独立的。
    等方差——各个总体的方差必须相同。
    4问题的一般提法
    统计学基本知识(四)_第10张图片
    (二)单因素方差分析
    1.定义
    单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响。例如,要检验不同行业被投诉次数的均值是否相等,这里只有行业一个因素,因此属于单因素方差分析。单因素分析的数据结构如下:
    统计学基本知识(四)_第11张图片
    2.分析流程
    以例1来说明。
    统计学基本知识(四)_第12张图片
    统计学基本知识(四)_第13张图片
    统计学基本知识(四)_第14张图片
    统计学基本知识(四)_第15张图片
    统计学基本知识(四)_第16张图片
    统计学基本知识(四)_第17张图片
    (4)计算统计量
    由于误差平方和的大小与观测值的多少有关,为了消除观测值对少对误差平方和大小的影响,需将其平均,也就是用平方和除以它们各自对应的自由度,这一结果称为均方,也称方差。三个平方和所对应的自由度分别为:SST的自由度为n-1,其中n为全部观测值的个数。SSA的自由度为k-1,其中k为因素水平(总体)的个数。SSE的自由度为n-k。一般要比较的是组间均方和组内均方之间的差异。所以:SSA的均方也称为组间均方或组间方差,即为MSA,计算公式为:
    统计学基本知识(四)_第18张图片
    统计学基本知识(四)_第19张图片
    方差分析表
    为使计算过程更加清晰,通常将上述过程的内容列在一张表内,这就是方差分析表。
    统计学基本知识(四)_第20张图片
    例1的方差分析表如下:
    统计学基本知识(四)_第21张图片
    3 关系强度的测量
    用组间平方和(SSA)占总平方和(SST)的比例大小来反映自变量对应变量的影响效应。当组间平方和比组内平方和大,且大到一定程度时,就意味着两个变量之间的关系显著,大的越多表明它们之间的关系就越强;反之,当组间平方和比组内平方和小时,就意味着两个变量之间的关系不显著,小的越多,表明它们之间的关系就越弱。计算公式如下:
    统计学基本知识(四)_第22张图片
    这表明,行业(自变量)对投诉次数(因变量)的影响效应占总效应的34.9759%。R=0.591404表明行业与投诉次数之间有中等以上的关系。

4.方差分析中的多重比较
例1的检验结果表明不同行业被投诉次数的均值不完全相同,究竟哪些均值之间不相等?需要对四个均值之间两两配对分别进行检验。所使用的的方法就是多重比较方法。具体步骤如下:
统计学基本知识(四)_第23张图片
对例1的检验过程如下:
统计学基本知识(四)_第24张图片
统计学基本知识(四)_第25张图片
统计学基本知识(四)_第26张图片
(三)双因素方差分析
1 双因素方差分析的定义和分类
当方差分析中涉及两个分类型自变量时,称为双因素方差分析。例2 有4个品牌的彩色电视在5个地区销售,为分析彩电的品牌(“品牌因素”)和销售地区(“地区”因素)对销售量的影响,对每个品牌在各地区的销售量取得以下数据(单位“台”)。如下表所示。试分析这两个因素对彩电的销售量是否有影响?(a=0.05)
统计学基本知识(四)_第27张图片
在双因素方差分析中,由于有两个影响因素,例如,彩电的品牌因素和地区因素,如果品牌和地区对销售量的影响是相互独立的,分别判断品牌和地区对销售量的影响,这时的双因素方差分析称为无交互作用的双因素方差分析,或称为无重复双因素分析;如果除了品牌和地区对销售量的单独影响,两个因素搭配在一起还会对销售量产生一种新的影响效应,例如某个地区对某种品牌的彩电有特殊偏好,这就是两个因素结合后产生的新效应,这时的双因素方差分析称为有交互作用的双因素方差分析,或称为可重复双因素分析。

2.无交互作用的双因素方差分析
步骤与单因素方差分析一样,只是相关统计量的计算不一样。其数据结构如下:
统计学基本知识(四)_第28张图片
双因素方差分析表如下:
统计学基本知识(四)_第29张图片
最后的统计决策如下:
统计学基本知识(四)_第30张图片
关系量度的测量由SSR和SSC联合度量。计算公式如下:
在这里插入图片描述
3.有交互作用的双因素方差分析
例3试分析路段、时段以及路段和时段的交互作用对行车时间的影响(a=0.05)。
统计学基本知识(四)_第31张图片
统计学基本知识(四)_第32张图片
统计学基本知识(四)_第33张图片
统计学基本知识(四)_第34张图片
统计学基本知识(四)_第35张图片

参考资料:贾俊平《统计学》第4、6版

你可能感兴趣的:(统计学基本知识(四))