卡方分析

什么是卡方分析

卡方分析又称卡方检验,主要用于两组样本或是两个分类变量之间相关性的分析。其根本思想是利用样本的实际频数和理论频数的吻合度,来判断样本是否符合预期。
卡方分析是基于卡方分布的统计方法。其主旨思想是:先假设实际和理论没有区别,然后计算卡方值,以此估计理论与实际的偏离程度,从而决定接受还是拒绝最初的假设。

卡方分析的计算

(1) \quad 假设H_0:假设观察频数与期望频数没有差异\\ (2) \quad 设A是某类别的观察频数,E代表基于H_0算出的该类别的期望频数,A E的差称为残差\\ (3) \quad 在计算统计量的偏离程度时,我们用\sum_{}^{}|X-\overline X|来估计变量X偏离中心的程度,便于计算采用(X-\overline X)^2\\ 这里类似的用统计量X=\sum_{}^{}\frac{(A-E)^2}{E}来估计观察值和理论值的偏离程度。不加证明的指出:X\sim\chi^2(k-1),k是计算E的参数个数。\\ 对于R\cdot C的表资料的卡方检测X\sim \chi^2((R-1)(C-1)),R为行数,C为列数\\ (4) \quad 稍作解释:我们总是假设观察频数和期望没有差异,这样在计算期望频数时是有好处的。至于假设的对错,\\ 可以交给观察与理论的差距来评判。如男女抽烟调查图所示,假设男女抽烟概率一致,那么男生抽烟的期望频数E=\frac{500+300}{1350}\cdot 600\\ 其余量的期望频数分布计算出来为:\frac{100+450}{1350}\cdot 600 \quad \frac{500+300}{1350}\cdot 750 \quad \frac{100+450}{1350}\cdot 750 \\ 卡方值\chi^2=\sum_{}^{}\frac{(A-E)^2}{E}=260.3,由(3)可知,自由度V=(R-1)(C-1)=(2-1)(2-1)=1\\ 查表\chi_{0.05}^{2}(1)=3.84<260.3,拒绝H_0,说明男女抽烟概率有显著差异。

男女抽烟调查图

卡方分析能做什么

(1) 检验某个变量是否服从某分布
(2) 验证某分类变量的某类概率是否为指定值
(3) 验证某两类变量是否独立
(4) 控制某些变量后,另两个变量是相互独立
(5) 验证两种方法的效果是否一致

卡方分析对数据的要求

总体来说,数据量越多越好。每个类别期望频数不能小于1。要求期望频数大于5的数量超过4/5

典型案例

(1) 验证某随机变量是否服从某分布,用一个离散分布和一个连续分布来说明。
(1) \quad关注野牛毛色和角这两种性状,统计后数据如下,问这两对性状是否满足9:3:3:1的比例?\\ 提出假设H_0:满足9:3:3:1的比例关系,H_1:不满足\\ 计算卡方值\chi^2=\sum_{}\frac{(观察值-期望频数)^2}{期望频数}=3.37\\ 自由度V=(4-1)(2-1)=3,查表\chi_{0.05}^{2}(3)=7.81>3.37,接受H_0,认为它是满足遗传比例的。\\ (2) \quad 验证一下数据是否来自同一个正态总体X。\\ 假设数据来自同一正态总体,先估计均值和方差,利用最大似然估计法得出\hat \mu=143.8, \hat \sigma^2=6^2\\ 将数据分组如图所示,计算后将频数小于5的项就近合并,利用卡方检验计算方法得:\\ 卡方值\chi^2=\sum_{}\frac{(观察值-期望频数)^2}{期望频数}=3.67,由于在计算前已经通过样本估计了均值和方差,自由度V=5-2-1=2\\ 查表得\chi_{0.05}^{2}(2)=5.99>3.67,接受H_0,说明来自同一个正态总体

计算过程
正态

(2) 验证某分类变量的各类概率是否为指定值。如投硬币正反概率为0.5
要验证某硬币正面的概率为0.5,抛100次,正面55次,反面45次\\ H_0:出现正面的概率为0.5,\quad H_1:出现正面的概率不为0.5\\ 基于假设H_0,出现正面的的期望频数为100*0.5=50次,反面期望频数也为50次。\\ 计算卡方值\chi^2=\frac{(55-50)^2}{50}+\frac{(45-50)^2}{50}=1,自由度V=1,查表\chi_{0.05}^{2}(1)=3.84>1,接受H_0

(3) 验证某两类变量是否独立,我们有喝牛奶和得感冒两者的关系来说明,如图所示

先提出假设:H_0:喝牛奶和感冒无关,H_1:和牛奶和感冒相关\\ 依照卡方检测的计算方法计算卡方值:\\ \chi^2=\frac{(43-139*\frac{71}{251})^2}{139*\frac{71}{251}}+\frac{(28-112*\frac{71}{251})^2}{112*\frac{71}{251}}+\frac{(96-139*\frac{180}{251})^2}{139*\frac{180}{251}}+\frac{(84-112*\frac{180}{251})^2}{112*\frac{180}{251}}=1.077\\ 确定自由度V=1,查表\chi_{0.05}^{2}(1)=3.84>1.077,接受H_0,

(4) 控制某些变量后,两变量是否独立

(5) 验证两种方法效果是否一致,这里用民众对北京和南京的环卫满意度来说明,如图所示

先提出假设:H_0:满意程度比例相同,H_1:满意程度不相同\\ 依照卡方检测的计算方法计算卡方值:方法与上面类似,不列出,直接给结果\\ \chi^2=1.38,确定自由度V=(4-1)(2-1)=3,查表\chi_{0.05}^{2}(3)=7.81>1.38,接受H_0,

写在最后

  1. 为什么H0假设一定是假设观察频数和期望频数一致、相同、无关。只有这样,才能从观察值,计算出期望值。从而检验观察值和期望值的差距。如果直接假设观察频数和期望频数不一致,不同,相关。那么将无法计算期望值。
  2. 计算自由度V=(行数-1)(列数-1),一般的显著度=0.05,可以在Excel中选择任意方格输入:=CHIINV(0.05,3),即可计算显著度=0.05时,自由度V=3的卡方值。查表值大于计算值,接受原假设,否则拒绝。
  3. 若观测频数值小于5,应该将该项合并至相邻项中
    参考链接1

你可能感兴趣的:(卡方分析)