分类型数据也称为频数数据。在数据样本中,我们称落入某一个特定分组的样本数量为频数;当分组的维度只有1时,我们称这样的数据为单因素频数表;当分组的维度为2时,我们称这样的数据为列联表数据。
用于分类型数据的方法有很多:卡方检验、Fisher检验、McNermr检验、Cochran’s Q检验,本文将重点讲述卡方检验与Fisher检验两种方法。
卡方检验与Fisher检验都是分析频数表中绝对频数与期望频数的偏差程度,对于它们而言,检验的两个假设分别为
0 : 绝对频数与期望频数没有差别 ↔ 1 : 绝对频数与期望频数存在差别 0:绝对频数与期望频数没有差别↔1:绝对频数与期望频数存在差别 H0:绝对频数与期望频数没有差别↔H1:绝对频数与期望频数存在差别
那么,绝对频数和期望频数是什么呢?
对于一个给定的频数表而言,我们称其中的频数为绝对频数,记为 _ oi , 为频数表中格子的序号(或者行列位置)。在上面的单因素频数表中,骰子点数1的绝对频数为 1 = 18 _1=18 o1=18 ;在双因素列联表中,男性左利手的绝对频数为 11 = 43 _{11}=43 o11=43。
而期望频数则根据我们进行卡方/Fisher检验的用途变化而变化,记为 _ ei 。例如,在列联表独立性检验中,每个格子的期望频数就是这个格子在表格中的“期望值”(我们后面会解释这个概念);在特定分布的拟合优度检验中,期望频数就是特定分布在每个取值区间下的频数。
如果绝对频数与期望频数的差值越小,则两者越接近,我们越不能拒绝原假设。基于此,卡方检验构造了下述检验统计量:
s t a t i s t i c s = ∑ i ( o i − e i ) 2 e i statistics=\sum_i{\frac{\left( o_i-e_i \right) ^2}{e_i}} statistics=i∑ei(oi−ei)2
而该统计量近似服从卡方分布(在大样本下):
s t a t i s t i c s ∼ χ f 2 statistics\sim \chi _{f}^{2} statistics∼χf2
其中, f f f为自由度。对于有n个格子的单因素频数表而言, f = n − 1 f=n-1 f=n−1;对于 r × c r\times c r×c的双因素列联表而言,$f=\left( r-1 \right) \left( c-1 \right) $
p值计算规则为:
p v a l u e = P ( χ f 2 > T e s t s t a t i s t i c s ) pvalue=P\left( \chi _{f}^{2}>Test\,\,statistics \right) pvalue=P(χf2>Teststatistics)
我们注意到,卡方检验中的检验统计量是近似服从而非精确服从卡方分布,只有在大样本下(绝对频数与期望频数都很大)的情况下,卡方检验的精确度才高,而在小样本下,卡方检验的效用不及Fisher检验。相比于卡方检验这种“近似的”检验,Fisher检验是一种精确的检验,但是它的计算要比卡方检验复杂。不过幸运的是,在计算机面前这并不是问题。
两者的适用范围如下:
卡方检验适用于单因素频数表、双因素频数表中的 2 × 2 2\times 2 2×2与 r × c r\times c r×c列联表。
单因素频数表
2 × 2 2\times 2 2×2列联表
2. 样本总量 ∑ o i > 40 \sum{o_i}>40 ∑oi>40,且所有期望频数 e i > 5 e_i>5 ei>5,可使用Pearson卡方检验
3. 样本总量 ∑ o i > 40 \sum{o_i}>40 ∑oi>40,但存在期望频数 1 < e i < 5 1
4. 若样本总量 ∑ o i < 40 \sum{o_i}<40 ∑oi<40,或存在期望频数 1 < e i 1
r × c r\times c r×c列联表
5. 表中期望频数 e i < 5 e_i<5 ei<5的格子不能超过1/5。
6. 不得出现期望频数 1 < e i 1
Fisher检验仅仅适用于双因素频数表中的 2 × 2 2\times 2 2×2列联表。
Fisher检验在 2 × 2 2\times 2 2×2列联表中适用范围内很广,弥补了卡方检验的缺点。
总结一下,卡方检验在多种频数表中都可以应用,但要注意绝对频数与理论频数是否过低;Fisher检验只适用于 2 × 2 2\times 2 2×2列联表,但是在该表中的精确度与适用性都优于卡方检验。因此在 2 × 2 2\times 2 2×2列联表中,我推荐大家使用Fisher检验;在其他表格中使用卡方检验。