卡方检验用于检验观测到的数据是否服从特定多项分布。假设一组数据样本
即有2个整数"1",2个整数"2"和1个整数"3"。如果要判断这个多项分布的概率是否等于,便需要使用卡方检验了。卡方检验的主要步骤如下:
步骤1. 建立零假设和备选假设。
并限定显著性水平为。
步骤2. 我们选择一个合适统计量。
步骤3. 查卡方检验临界值表。待检测多项分布是3维概率,我们采用n=2(自由度为2)所对应的行;显著性水平为,我们采用所对应的列。
查表所得值为5.991。,故我们拒绝零假设,认为。
导出卡方检验的关键是证明命题:一组相互独立的样本服从多项分布(即零假设成立),统计量依分布收敛于自由度为k-1的卡方分布。
其中n是样本数,表示样本中等于第j个值的频数。如果统计量服从自由度为k的卡方分布当然是极好的,但事实确实不是这样啊。
证明过程有点繁琐,我们慢慢来。在证明之前,我们先引入如下三个引理。其中引理1是关于正态分布的性质,引理2和引理3是关于卡方分布的性质。
引理1:如果向量的元素相互独立并服从标准正态分布,将转化到另一标准正交坐标系得到新坐标 ,新坐标的元素 也相互独立并服从标准正态分布。
引理2:如果一个随机变量X服从标准正态分布N(0,1),那么服从自由度为1的卡方分布。
引理3:如果相互独立并且,那么
样本数据等于第j个值服从伯努利分布,概率为。根据中心极限定理,我们有,令,我们有
值得注意的是,因为越大,就应该越小,从而值比较大则值应该比较少。也就是说,随机变量和随机变量会呈现负相关系。
我们发现和n无关,得。
综上所述,我们有
其中服从正态分布,并且。这时我们好像看到了曙光——应用引理2和引理3就能导出卡方统计量服从卡方分布。但注意到和之间的负相关性,我们的希望破灭了。为此,我们得另辟蹊径。
令向量中的元素相互独立并且服从标准正态分布N(0,1),以及。再令。显然地,是期望为零的正态分布。为了证明和具有同样的分布,需证明下面两个命题:
1,。证明如下:
计算随机变量的特征函数,从而
2,。证明如下:
综上所述,和具有一样的分布
设定一个标准正交坐标系的第一个基向量为(因为)。将向量转化到这个标准正交坐标系得。根据引理1,中的元素相互独立并且服从标准正态分布。令向量转化到这个标准正交坐标系得的过程可以这么理解:
1.在投影为,即得,
2.减去其在的投影,得。投影到其他基向量,便可得到。
这个两个步骤告诉我们, 在新坐标系中的坐标为,又因为中的元素相互独立并且服从标准正态分布。根据引理2和引理3,我们有
结合公式 1,2 和 3,可得 ,命题得证。
下图便是卡方分布的概率密度分布图。大家随意感受一下。
卡方检验可以应用于特征选择。基于卡方检验的特征选择,计算每一个特征的卡方统计量,然后选择卡方统计量比较大的特征。假设文本分类中,类别一共只有两种“体育类”和“非体育类”。比如其中一个特征是文章是否包含词“篮球”。那么如下所示,会有四个项目——包括“篮球”体育类、包括“篮球”非体育类、不包括“篮球”体育类、不包括“篮球”非体育类。
词\类别 | 体育 | 非体育类 | 合计 |
包含“篮球”文章 | A | B | A+B |
不包含“篮球”文章 | C | D | C+D |
合计 | A+C | B+D | N=A+B+C+D |
其中N表示文章总数。如果零假设成立,特征“篮球”和类别相互独立,那么我们有
这时候,卡方统计量如下公式所示
按照这种方法,我们还可以计算s(排球,体育),s(战斗机,体育),s(电视剧,体育)等不同特征的卡方统计量。一个特征的卡方统计量比较大,我们倾向于拒绝零假设(换句话说,我们倾向于认为该特征变量和类别变量不是相互独立的),从而保留这个特征。
应用于特征选择的卡方检验,关注特征变量和类别变量是否相互独立。因此某些资料也认为卡方检验是独立性检验。上面的卡方检验涉及四个项目(即表中 A, B, C 和 D ),故而上面的卡方检验又称四格表资料检验。