[ai-002] 卡方检验是什么

先用一个例子解释卡方。

一个硬币,正面是字,反面是花。抛20次,有11次是字,9次是花。根据这个抛出结果,可否假设抛一次硬币出现字和花的概率都是50%?验证这个假设,就是卡方检验。

期望次数:假如认为子和花出现概率都是50%抛出的理论次数。本例中,抛20次,如果字和花出现的概率相同,那么它们的期望次数都10。

我们可以把观察次数和期望次数放到下表。

  观察次数 期望次数 合计
11 10 21
9 10 19
合计 20 20 40

从直觉来说,如果观察次数和期望次数是一样的,假设是合理的。如果观察次数和期望次数差别比较大,则假设是不合理的。由此,设计一个衡量观察次数和期望次数之间差异的值\chi ^2=(11-10)^2+(9-10)^2=2。又考虑到,如果抛硬币次数不是10,是100次,\chi ^2会被影响,因此需要去掉次数的影响,也就是分别除以字和花的期望次数,本例这两个值都是10,即\chi ^2=\frac{(11-10)^2}{10}+\frac{(9-10)^2}{10}=0.2

又考虑到,如果这不是一个硬币,是一个骰子,那么表格就会增加4行,由此导致\chi ^2变化,也需要去掉这个因素的影响,这个因素称之为自由度。

如何计算自由度?只要一种可能的话,自由度是0,有两种可能,自由度是1。如果抛不是一个硬币,而是一颗台球,上面数字只有一种可能,此时自由度是0。一个药片,吃下去的有三种结果:病治愈,病恶化,病不变,如果吃下去只有治愈这个可能,自由度是0,如果有三种可能,自由度是2。

对于本例的表格而言,行和列的自由度都有自己的自由度,分别是行数和列数减一。又考虑到行数和列数的乘积是表中数值的总数,因此全表对应的自由度是行和列自由度的乘积。本例的自由度由此计算出来是1。

 

对本例而言,计算出的\chi ^2越小,越能验证假设是正确的,\chi ^2越大,越证明假设是错误的。那么,究竟\chi ^2有多小,可以大概率认为假设正确呢?经验而言,大家认为95%的概率是足够大。95%的概率,从数学上解释是这样的:\chi ^2的概率密度曲线,自变量从0开始到某一个值之间的累计概率等于95%,也就是从0到这个值的概率密度曲线和x轴之见的面积是95%。可以参考下图,上面每条线都是某自由度下的卡方概率密度曲线。

[ai-002] 卡方检验是什么_第1张图片

 

比如,对于k=1的情况,就是最下面的黑线,从0到某个值之见,概率密度曲线和坐标轴之见的面积是0.95%。如果假设95%是正确的,那么\chi ^2计算出来的值应该小于这个值。反之,如果我们以95%的概率认为假设是错误的,那么计算出来的\chi ^2计算出来的值要大于这个值。

属于95%概率教置信度,本例那么置信度就是0.95。

 

为方便使用,概率密度曲线的自由度、置信度对应关系有一张表可以查到(表来自https://www.jianshu.com/p/807b2c2bfd9b),如下:

[ai-002] 卡方检验是什么_第2张图片

自由度是1且置信度是0.95的情况下,\chi ^2的上限是3.841,而此前计算出来的值0.2小于上限,因此可以视为假设成立。假设成立,就意味着如果抛出的结果是字11次花9次能验证字和花的出现概率都是50%。

上面的表,叫 卡方分布临界值表。不同的分布有不同的表。自由度1,就是一个标准正态分布的变量的平方模拟出来的,自由度2,是两个标准正态分布变量的平方和模拟出来的,其他以此类推。

 

泛化一下,卡方检验的计算公式是\chi ^2 = \sum_{i=1}^{n}\frac{(O_i-E_i)^2}{E_i},其中,O_i表示观察值,E_i表示期望值。对于单变量,比如本例,i表示样本出现的可能值的数量。

对于多变量多种可能,公式又可以修改为\chi ^2 = \sum_{i=1}^{n}\sum_{j=1}^{m}\frac{(O_{i,j}-E_{i,j})^2}{E_{i,j}}。后文我们会用另一个例子说明。

 

 

 

牛奶和感冒的例子。https://blog.csdn.net/snowdroptulip/article/details/78770088

https://blog.csdn.net/snowdroptulip/article/details/78770088

https://blog.csdn.net/qq_39303465/article/details/79223843

http://www.cnblogs.com/emanlee/archive/2008/10/25/1319569.html

https://en.wikipedia.org/wiki/Chi-squared_test

https://www.zhihu.com/question/21195469

 

 

 

未完待续。

你可能感兴趣的:([ai-002] 卡方检验是什么)