学习:StatQuest-Odds Ratios and Log(Odds Ratios)

Odds Ratios:

这里的odds ratios是事情发生与事情不发生的比
先举个例子吧,若有两个人支持某球队赢,四个人支持球队输,那么支持赢的odds ratios = 2/4;对比概率来看,支持球队赢的概率为2/6

若有五个人支持某球队赢,三个人支持球队输,那么odds ratios = 5/3

若以数轴来表示,假设说一共7个人,支持某球队的有6个人,反对该球队的有1人,那么支持的odds ratio为6/1;反对的为1/6
若以数轴来表示:


image.png

Log(Odds Ratios)

接着上一个例子,在数轴上这样表示会导致长度不均一,不便于观察,所以这时候我们往往求对数,来表示


image.png

Odds Ratios在生物学上的运用:

假设说我们的总体有356人,有29人患癌症,327人不患癌症;有140人有突变基因,216人没有突变基因,那么我们可以利用odds ratio来确定突变基因和癌症之间是否有关系


image.png

假设某个人有突变基因,是否比例越高对应患癌的几率越高
那么有突变基因,对应人群的患癌比率为23/117;没有突变基因,对应人群患癌比率为6/210
那么:


image.png

对数化:
image.png

1. 利用fisher test检测

基于超几何检验的p_value为0.00001

2. 利用chi test检测

患癌概率p=29/356=0.08
对应有突变基因的人群,患癌人数为140 x 0.08 = 11.2,没患癌的为140-11.2=128.8

对应没有突变基因的人群,患癌人数为216 x 0.08 = 17.3,没患癌的为216-17.3=198.7

image.png

注意,左图为观测值,右图为期望值,利用chi test检测的p值0.00001

3. 利用wald test检测

该方法利用了odds ratio服从正态分布,


image.png

首先随机生成10000个log(odds ratio),显然为0的频数最多,这个分布是一个正态分布,这样做的目的是检验随机性,此时基因突变于是否患癌就没有联系了,此过程完全随机
步骤:

  1. 在总的10000个样本中随机挑选300-400个样本,例如挑325个

2.对于每个样本,随机挑选0-1之间的随机数,利用这325个样品和对应的随机数拟合一个分布

3.如果随机数小于0.08,则该样本患癌

4.对于每个样本,再次随机挑选0-1之间的随机数,利用这325个样品和对应的随机数再次拟合一个分布

5.如果随机数小于0.39(140/356=0.39),则该样本存在变异基因

在一次试验中最终你会得到一个随机数矩阵:


image.png

该矩阵是对我们上述步骤的一个统计,我推测是哪个数量少取哪个
基于上面的矩阵,我们重复10000次上述步骤的取样来计算有突变基因/无突变基因的odds ratio
然后拟合一个正态分布:


image.png

这个分布的均值和标准差分别为 0和0.43

反过来,我们回到刚才的data:


image.png

估计下参数:


image.png

其标准差为0.47,和随机法的分布差不多
对于这个数据
image.png

我们利用随机法产生的正态分布来计算p_value为0.00005,那么说明表格横纵变量相关

tip:wald test的核心思想是基于我们的data做个阈值判断,随机产生一个分布,然后利用我们的data对应于该随机产生的分布去计算p_value,来判断显著性

你可能感兴趣的:(学习:StatQuest-Odds Ratios and Log(Odds Ratios))