总结卡方检验(Chi-square test)和费舍尔精确检验(Fisher exact test)的区别

之前我一直都没有弄清楚卡方检验和Fisher exact test的区别。今天花时间专门整理、学习一下。

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
 
问题:(1)对于2*2的列联表,该用哪种检验方法?(2)对于R*C的列联表,该用哪种检验方法?
参考资料:
(1)http://cos.name/cn/topic/108278/
(2)http://biostar.blog.sohu.com/138497634.html
(3)http://www.cnblogs.com/liyongzhao/articles/3369117.html
这个帖子写的最好,推荐!

(4)http://www.med66.com/html/ziliao/yixue/8/81304c249c11e3fd6d8d77cab97c3bbc.htm
(5)http://blog.sina.com.cn/s/blog_6b1c9ed50101kh2f.html
(6)http://www.cnblogs.com/emanlee/archive/2008/10/25/1319569.html
这个帖子写的也不错!
(7)百度百科:http://baike.baidu.com/link?url=x16fPg-TUvgRmAR0bBqYZQY8x-Matl1YTI_LiGpFZFAKxOBl2QwphX5xg8Hj2e1v2_446OKlGMNN3Pe5AesBna&qq-pf-to=pcqq.c2c

行×列表 卡方检验注意事项
    1.一般认为行×列表中不宜有1/5以上格子的理论数小于5,或有小于1的理论数。当理论数太小可采取下列方法处理:①增加样本含量以增大理论数;②删去上述理论数太小的行和列;③将太小理论数所在行或列与性质相近的邻行邻列中的实际数合并,使重新计算的理论数增大。由于后两法可能会损失信息,损害样本的随机性,不同的合并方式有可能影响推断结论,故不宜作常规方法。另外,不能把不同性质的实际数合并,如研究血型时,不能把不同的血型资料合并。
    2.如检验结果拒绝检验假设,只能认为各总体率或总体构成比之间总的来说有差别,但不能说明它们彼此之间都有差别,或某两者间有差别。

=========================个人总结=================================
若一个2*2的列联表为:
a b
c d
则n为2*2列联表的总频数(a+b+c+d)。而T为理论频数。对于a,其理论频数为(a+b)*(a+c)/n,即所在行的频数之和*所在列的频数之和/总频数。
主要结论:
一:对于2*2的列联表:

(1)当T(此处为最小理论频数,下同)>=5, n>=40 时,直接用Pearson 卡方检验; 
(2)当1 = 40 时,需要用连续性校正公式做卡方检验。这是因为卡方分布为连续型分布,而2*2列联表资料是分类资料,所以样本量较小时要进行连续性校正。
(3)当T<1 , 或者 n < 40, 或做卡方检验后所得的P值接近检验水准a 时,用Fisher exact test 

二:对于行×列表资料检验
要求每个格子中的理论频数T均大于5或1<1或1

你可能感兴趣的:(R)