《实用医学统计学与SAS应用》学习笔记 | 分类变量资料的比较-卡方检验

一. 完全随机设计两样本率比较的卡方检验

1. 四格表的基本公式

当比较两个样本率之间的差异时,可以得到如下所示的资料

《实用医学统计学与SAS应用》学习笔记 | 分类变量资料的比较-卡方检验_第1张图片

上述表格的研究目的是探究,利伐沙班和依诺肝素两种药物对预防全膝关节术后形成静脉血栓效果的比较,将患者分为两组,分别使用两种药物,观察并统计各组术后发生静脉血栓的人数。

该表中79, 745, 166, 712这四个基本数据,习惯上用a, b, c, d来表示,表格中的其他几个数据可以基于这四个基本数据计算出来,这4个基本数据的行数和列数均为2,称为2x2表资料或者四格表资料。

卡方检验的空假设是两独立样本的率相同,即两组有效时间发生率相同,则可以用总的有效事件发生率,即总计所在行的发生率来作为总体率的估计,然后各组人数乘以总体率得到各组的发生有效事件的人数,从而计算出一个理论上的四格表,此时得到的表格中的数据称为理论频数,计算公式如下

《实用医学统计学与SAS应用》学习笔记 | 分类变量资料的比较-卡方检验_第2张图片

若两样本率相同,则理论频数和实际频数应相差不大,卡方统计量的计算公式如下

940617a943393f8e8255b63864cb3e74.png

自由度如下

fa9c095799bd213df266d43f30bb4fd7.png

卡方值反映了理论频数和实际频数的吻合程度,上述卡方值的计算公式称之为基本公式,不仅仅适用于四格表,而且适用于行X列表资料。

为了简化计算,四格表资料还有一个专用公式

《实用医学统计学与SAS应用》学习笔记 | 分类变量资料的比较-卡方检验_第3张图片

2. 四格表资料的校正

卡方分布是一种连续性分布,而分类资料是离散的,通过上述公式计算的卡方值是近似的。对于四格表资料,当n≥40且所有T≥5时,近似程度较好,可直接采用卡方检验;当n≥40且所有T≥1,但有1≤T<5时,计算的P值偏小,需要进行连续性较正,公式如下

《实用医学统计学与SAS应用》学习笔记 | 分类变量资料的比较-卡方检验_第4张图片

当n<40或有T<1时,不能用卡方检验,需要用确切概率法。

3. 确切概率法

基本思想:

在周边合计数不变的情况下,表中的实际频数有多种组合,计算出每种组合的概率,然后根据单侧还是双侧检验进行统计推断。

计算每种组合的概率的公式如下

《实用医学统计学与SAS应用》学习笔记 | 分类变量资料的比较-卡方检验_第5张图片

P值是样本观察到的情况以及比现有样本跟极端情况的概率,因此,在双侧检验中,所有概率小于或等于现有四格表的概率之和即为确切概率法的结果;在单侧检验中,则将相应方向上所有概率小于或等于现有四格表的概率相加即可。

二.  配对设计两样本率比较的卡方检验

当b+c≥40时, 配对设计的卡方检验统计量如下

260b6e986f6806311581beb6e5c57c75.png

当b+c<40时,需要进行校正,公式如下

《实用医学统计学与SAS应用》学习笔记 | 分类变量资料的比较-卡方检验_第6张图片

配对设计四格表资料的卡方检验又称作McNemar卡方检验,目的是推断两种处理结果有无差别,在检验时需要注意:当a与d都特别大,而b和c相对较小时,即使检验有统计学意义,其实际意义也不大。

三. 行 x 列表资料的卡方检验

四格表资料是2X2表,将行数或列数大于2的频数分布表称作行 x 列表,除了用通用公式计算卡方值之外,也有自己的专用公式

《实用医学统计学与SAS应用》学习笔记 | 分类变量资料的比较-卡方检验_第7张图片

该方式适用于多组率的比较,也适用于两组或多组构成比的比较。

对于行x列表的卡方检验,不能有一个格子的理论频数小于1,或者1≤T<5的格子数不能超过总格子数的1/5,否则结果易出现偏性。如果出现上述情况,则需增大样板含量或者使用Fisher确切概率法进行统计分析

四. 分类变量资料的关联性分析

对同一组对象按照两种分类变量的不同水平进行分组,将所产生的的数据排成双向交叉的统计表,称为列连表,比如配对设计的四格表资料。

对于配对设计的四格表资料,还可以分析两种方法的关联性,其关联性检验等同于构成比是否相同的卡方检验,关联程度用列联系数来描述,列联系数的计算公式如下

《实用医学统计学与SAS应用》学习笔记 | 分类变量资料的比较-卡方检验_第8张图片

列联系数的假设检验用普通的卡方检验,公式如下

《实用医学统计学与SAS应用》学习笔记 | 分类变量资料的比较-卡方检验_第9张图片

五. 频数分布拟合优度的卡方检验

在医学研究中,常需要判断某现象的实际频数分布是否符合某一理论分布,由于卡方值能反映实际频数与理论频数的符合程度,所以卡方检验可用于推断频数分布的拟合优度,即根据样本的频数分布检验其总体分布是否等于某一给定的理论分布,如正态分布,二项分布,泊松分布等。

其基本思想是根据样本计算出相应的总体参数,然后依据分布类型,计算得到每个实际频数的概率,用样本含量乘以概率得出理论频数,最后利用卡方检验来推断总体是否符合某种特定分布,统计量和自由度的公式如下

ab53fb6ed55872a2e264c816982bec25.png

5313b38b962fa2149c7f9bea8e5e5cad.png

在计算时如果出现理论频数≤5的情况,需要和其他组进行合并,k为合并后的组数。

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

  更多精彩

  • KEGG数据库,除了pathway你还知道哪些

  • 全网最完整的circos中文教程

  • DNA甲基化数据分析专题

  • 突变检测数据分析专题

  • mRNA数据分析专题

  • lncRNA数据分析专题

  • circRNA数据分析专题

  • miRNA数据分析专题

  • 单细胞转录组数据分析专题

  • chip_seq数据分析专题

  • Hi-C数据分析专题

  • HLA数据分析专题

  • TCGA肿瘤数据分析专题

  • 基因组组装数据分析专题

  • CNV数据分析专题

  • GWAS数据分析专题

  • 机器学习专题

  • 2018年推文合集

  • 2019年推文合集

  • 2020推文合集

  写在最后

转发本文至朋友圈,后台私信截图即可加入生信交流群,和小伙伴一起学习交流。

扫描下方二维码,关注我们,解锁更多精彩内容!

《实用医学统计学与SAS应用》学习笔记 | 分类变量资料的比较-卡方检验_第10张图片

一个只分享干货的

生信公众号

你可能感兴趣的:(学习,分类,机器学习,python,人工智能)