生物统计学 | Fisher精确检验

最近论文吃紧,本来想搞搞群体多样性的,无奈没时间,为了保持上我这个号残余的一点热乎气,今天晚上分享一篇8年前写的旧文,主要讲Fisher检验的,有些不尽如意的地方稍作了一点点修改,措辞、语句、参考文献等等。

0 导语

大约是2005年冬天,高中同学再写给我的信中说他挂了一科,并且自我安慰道:“不挂科怎么是完美的大学生涯呢?”
我那个时候还暗自庆幸自己,期末考试成绩时常游走于60-70分之间,但还没挂过。
也许是注定要有一个“完美”的大学生涯。
就是第二个学期,即2006年夏天,我终于完美了一把,《生物统计学》挂了。
具体原因不再赘述,反正呢,你要是说是我笨我是肯定不同意的。
通过了那次补考之后,不禁暗自庆幸,终于啊,可恶的“生物统计学“与我,不仅仅是它走它的阳关道,我过我的独木桥,而且两者之间再也不会有任何交集,即独立且互不相容。
然而,上天很会捉弄人,时至今日,我却喜欢上了生物统计学,这其中原因说来话长,这里也不再赘述,总之一句话:”我是爱《生物统计学》的,可是我挂科了,难道非要自绝于社会不可了么?”

深夜的508,何其寂静,没有群蚊肆虐,没有酷暑难当,真想在在整上一个通宵,无奈已经没了本科时代的那种白天考研备战,晚上浸淫世界杯的那种豪情,更无奈的是明天还要上班。
虽然快11点啦,但今天还是打算分享点东西再回窝睡觉。

1 超几何分布和奶茶

首先介绍一种离散概率分布——超几何分布:有N个样本,其中m个是不合格的。超几何分布描述了在该N个样本中抽出n个,其中k个是不合格样本的概率:

      

上式可如此理解:表示所有在N个样本中抽出n个的方式有多少;表示在M个样本中抽出k个的方式的总数;剩下来的样本都是及格的,而及格的样本有个,剩下的抽法便有种。两者相乘就表示抽出k个是无效的有多少种抽法,而除以抽法总数即就表示抽出的n个样本中有k个不合格样本的概率。

1935年的一个实验:伟大的Fisher得知一个女同事能够从口味分辨出下午茶的调制顺序,为了验证女同事是否在吹牛,做了一个有趣的实验:他调制了8杯茶,其中4杯先放牛奶,4杯先放茶,让女同事分辨,分辨的结果如下表:

事实上,根据小学数学知识,在已知了和这两个条件以后,b,c,d和n的值也就能求出来了,所以我们只需要计算在已发生的情况下a=3的概率(事实上选择a,b,c,d都可以得到同样的效果):

接著我們可進一步的算出比表格中极端情況( 在此指Fisher的同事猜得更加准确时) 的概率:

如果全部推测对,瞎猜得到这种结果的可能是1.4%,由于此概率小于0.05,属于小概率事件,而事实是小概率事件她都猜对了,说明她不是瞎猜的。
因此我們可以再計算出P值:

女同事如果是瞎猜的,那么她瞎猜得到这种结果的概率为24.3%,这个概率依然很高,不属于小概率事件,因此无法推测女同事不是胡乱猜的。
这个跟超几何分布有什么关系呢?哎,公式都一样的,往里代就是啦!
不过区别是,超几何分布是随机地抽取,但是本例的抽取是依据女同事的判断抽取,但一件事情由随机变成了有依据,那就需要利用P值来判断这种依据的可靠性啦。

2 一个实际案例

我们看一个实际的案例:
一般大众的猜测是:大学生节食的比比男生高。因此我们设定的虚无假设为H0:大学生与男生节食的比相同,对假设为Ha:大学生节食的比比男生高。

计算P值。

这里我不再说什么,因为P<0.01,所以大学生节食的比比男生高。

3 Fisher精确检验的基因组学应用

步入正题,涉及到基因组学的内容啦!
水稻项目统计了基因A位点变异与水稻是否易感稻瘟病的资料如下:

依上表,易感稻瘟病的样本中野生型似乎远比变异型为高,因此设定零假设为H0:基因型与稻瘟病易感性无关,备择假设为Ha:野生型更易感染稻瘟病。則我们可依上表中的资算出单边的p 值。

因为P<0.01,即基因A位点变异是有利突变。
业务线时代的我曾经想过下面几条,
Fisher精确检验的应用如下:
1.研究基因型与基因表达的关系:如SNP与其临近的基因表达上调/下调之间的关系
2.研究基因型与表型的关联性:如变异位点与相关性状的关系检验
3.研究表型与表型的关联性:如男性手指的长度与前列腺癌发病率的关系

PS:本文言语简陋,比较粗糙,但是已尽述我的理解。
这正如上衣半截袖,下面三五七分裤,拖鞋,一身终极杀人王火云邪神的装备,并非华丽的西装革履,——一看就知这是我们信息部的弟兄们的标准配置;也正如linux系统,一切皆为丑陋的命令行,虽然比不上windows那种高帅富的图形界面,但比之丑陋的0,1似乎好看多了。
本为自用笔记,弟兄们如果喜欢,欢迎拍砖探讨。

布莱特杨
2012年5月6日 22:49

备注
2012年5月6日首发于QQ空间《我爱统计学之Fisher精确检验》
2020年5月18日 发表于e媛微生态《生物统计学 | Fisher精确检验》

你可能感兴趣的:(生物统计学 | Fisher精确检验)