卡方检验

卡方检验(Chi-square test/Chi-Square Goodness-of-Fit Test)

什么是卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

卡方检验的基本原理

卡方检验的基本思想

卡方检验是以 χ2 分布为基础的一种常用假设检验方法,它的无效假设 H0 是:观察频数与期望频数没有差别。

  该检验的基本思想是:首先假设 H0 成立,基于此前提计算出 χ2 值,它表示观察值与理论值之间的偏离程度。根据 χ2 分布及自由度可以确定在 H0 假设成立的情况下获得当前统计量及更极端情况的概率 P 。如果 P 值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。

卡方值的计算与意义

  χ2 值表示观察值与理论值之问的偏离程度。计算这种偏离程度的基本思路如下。

  (1)设 A 代表某个类别的观察频数, E 代表基于 H0 计算出的期望频数, AE 之差称为残差。

  (2)显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。

  (3)另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。

  进行上述操作之后,就得到了常用的 χ2 统计量,由于它最初是由英国统计学家 KarlPearson 在1900年首次提出的,因此也称之为 Pearsonχ2 ,其计算公式为
χ2=(AE)2E=ki=1(AiEi)2Ei=ki=1(Ainpi)2npi  (i=123k)
  其中, Ai i 水平的观察频数, Ei i 水平的期望频数, n 为总频数, pi i 水平的期望频率。 i 水平的期望频数 Ti 等于总频数 n×i 水平的期望概率 pi k 为单元格数。当 n 比较大时, χ2 统计量近似服从 k1 (计算Ei时用到的参数个数)个自由度的卡方分布。

  作为学术界的领袖, Pearson 先生当初发表在《哲学杂志》上的 χ2 论文题目为:On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling.

  由卡方的计算公式可知,当观察频数与期望频数完全一致时, χ2 值为0;观察频数与期望频数越接近,两者之间的差异越小, χ2 值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大, χ2 值越大。换言之,大的 χ2 值表明观察频数远离期望频数,即表明远离假设。小的 χ2 值表明观察频数接近期望频数,接近假设。因此, χ2 是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的度量指标。如果 χ2 值“小”,研究者就倾向于不拒绝 H0 ;如果 χ2 值大,就倾向于拒绝 H0 。至于 χ2 在每个具体研究中究竟要大到什么程度才能拒绝 χ2 ,则要借助于卡方分布求出所对应的 P 值来确定。

卡方检验的样本量要求

  卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。只有当样本量比较充足时,才可以忽略两者问的差异,否则将可能导致较大的偏差具体而言,一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算。

资料来源:智库百科

卡方分布

定义:

n 个相互独立的随机变量 ξξξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和这里写图片描述 构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution),其中参数n称为自由度,正如正态分布中均值或方差不同就是另一个正态分布一样,自由度不同就是另一个 分布。记为这里写图片描述或者这里写图片描述 .

概率密度函数

这里写图片描述

其中, 这里写图片描述 是伽玛函数。
伽玛函数百度百科
期望和方差:
分布的均值为自由度 n ,记为 E(χ2)=n
分布的方差为2倍的自由度: 2n ,记为 D(χ2)=2n
几个概率密度函数图:
卡方检验_第1张图片
性质
1) χ2 分布在第一象限内,卡方值都是正值,呈正偏态(右偏态),随着参数 n 的增大, 分布趋近于正态分布;卡方分布密度曲线下的面积都是1.
2) χ2 分布的均值与方差可以看出,随着自由度n的增大, χ2 分布向正无穷方向延伸(因为均值 n 越来越大),分布曲线也越来越低阔(因为方差 2n 越来越大)。
3)不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜。

资料来源:百度百科

你可能感兴趣的:(机器学习,卡方检验)