有关卡方检验(chi-square test )

1. 什么是卡方检验

卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

在大数据运营场景中,通常用在某个变量(或特征)值是不是和因变量有显著关系。

通俗来讲:卡方检验就是检验两个变量之间有没有关系

举两个例子:

  1. 卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别;
  2. 不同城市级别的消费者对买SUV车有没有什么区别;不同城市级别的消费者对买SUV车有没有什么区别;

2. 卡方检验基本原理

  1. 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度。
  2. 实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

注意: 卡方检验针对分类变量。

3. 卡方检验实例

问题1: 投硬币 不知道这个硬币是不是均衡的,我想用正面,反面的频次来判断,我投了50次,其中28个正面,22个反面。我怎么用卡方检验来证明这个硬币是均衡的还是不均衡的呢?
通过卡方检验来拿观察到的现象(投正面或反面的次数或者频数),来判断这个结果(硬币是不是均衡的)。
引入公式:
有关卡方检验(chi-square test )_第1张图片
这个公式可以帮我们求出卡方检验的值,我们用

  1. 这个公式求得的值
  2. 自由度
  3. 置信度

其中,自由度我们可以求出来,置信度的话,我们按照我们自己意愿挑选,一般我们会挑90%或者95%。

有关卡方检验(chi-square test )_第2张图片
我们拿到这3个信息,去查表,因为0.72小于查表得到的3.841,所以我们得出这个硬币是均衡的结论。

问题2: 电商中消费者的性别和购买生鲜(独立性检验)
我们要观察性别和在线上买不买生鲜食品有没有关系,现实生活中,女性通常去菜市场买菜的比较多,那么在线上是不是也这样。
有关卡方检验(chi-square test )_第3张图片
我们得出观察到数据,并且形成表格后,我们需要计算理论的数据,在上面的例子我们发现,我们发现有66%的人不在线上买生鲜(599除以907),34%的人会在线上买。 那如果,男的有733个人,女的有174个人,根据这些比例,我们可以得出的理论值是什么呢?
有关卡方检验(chi-square test )_第4张图片
有关卡方检验(chi-square test )_第5张图片
根据理论和实际值,我们可以算出卡方值,自由度,并且结合我们定义的置信度,查表得到性别和线上买生鲜是显著相关的。

问题 3: 两组大白鼠在不同致癌剂(甲乙两组)作用下的发癌率如下表,问两组发癌率有无差别?
有关卡方检验(chi-square test )_第6张图片
其中(52 19 39 3)这四个数据是整个表中的基本资料,其余数据均由此推算出来;这四格资料表就专称四格表(fourfold table),或称2行2列表(2×2 contingency table)。

从该资料算出的两组发癌率分别为73.24%和92.86%,两者的差别可能是抽样误差所致,亦可能是两组发癌率(总体率)确有所不同。

这里可通过卡方检验来区别其差异有无统计学意义,检验的基本公式为:
公式
式中A为实际数,以上四格表的四个数据就是实际数。
T为理论数,是根据检验假设推断出来的;
即假设这两组的发癌率本无不同,差别仅是由抽样误差所致。

这里可将两组合计发癌率作为理论上的发癌率,即91/113=80.3%,以此为依据便可推算出四格表中相应的四格的理论数。以上表资料为例检验如下。

检验步骤:

1.建立检验假设:

H0:π1=π2;H1:π1≠π2;α=0.05
2.计算理论数(TRC),计算公式为:
公式
式中TRC是表示第R行C列格子的理论数,nR为理论数同行的合计数,nC为与理论数同列的合计数,n为总例数。

第1行1列: 71×91/113=57.18

第1行2列: 71×22/113=13.82

第2行1列: 42×91/113=33.82

第2行2列: 42×22/113=8.18

以推算结果,可与原四项实际数并列成下表:
表2
因为上表每行和每列合计数都是固定的,所以只要用TRC式求得其中一项理论数(例如T1.1=57.18),则其余三项理论数都可用同行或同列合计数相减,直接求出。

3.计算卡方值按公式代入
公式2
4.查卡方值表求P值
在查表之前应知本题自由度。按卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查卡方界值表,找到 x 0.05 2 ( 1 ) = 3.84 x^2_{0.05}(1)=3.84 x0.052(1)=3.84,而本题卡方=6.48,即卡方> x 0.05 2 ( 1 ) = 3.84 x^2_{0.05}(1)=3.84 x0.052(1)=3.84,P<0.05,差异有显著统计学意义,按 α = 0.05 \alpha=0.05 α=0.05水准,拒绝H0,可以认为两组发癌率有差别。

4. 总结

通过实例计算,读者对卡方的基本公式有如下理解:

  1. 若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零,而卡方永远为正值。
  2. 又因为每一对理论数和实际数都加入卡方值中,分组越多,即格子数越多,卡方值也会越大,因而每考虑卡方值大小的意义时同时要考虑到格子数。因此自由度大时,卡方的界值也相应增大。

你可能感兴趣的:(数据分析与处理)