离散型数据检验方法学习

二项检验

二项分布是指统计变量中只有性质不同的两箱群体的概率分布,两个观测值是对立的。二项分布描述了n次实验中恰好有k次成功的概率。
二项分布定义:

  1. 任意一次事件中,A只有发生和不发生两种情况,概率分别为P和1-P
  2. 在相同的条件下,进行N次独立重复试验,用X表示N次事件中A发生的次数,那么X符合二项分布,基座X~B(N,P),也叫作伯努利分布,可以用下式表示。

二项检验的意义:通过样本数据判断整体是否服从指定概率P的二项分布。
二项分布统计量

二项分布例子:
某地老年人比重约为14.7%。随机抽取了400名居民,发现其中57人为老年人。根据调查结果是否支持该市老年人比重为14.7%的结论。

import scipy.stats as st 
st.binom_test(57,n=400,p=0.147)
p-value = 0.8876
p-value >0.05,调查结果支持该市老年人比重为14.7%的结论

对应到日常工作中,对于甲基化位点研究,甲基化的位点的甲基化水平符合二项分布。

样本比例检验

比例检验是基于二项分布情况来讨论的。
样本比例检验主要包含单样本比例检验和双样本比例检验;单样本比例检验是检验n次独立重复试验中,事件A出现的频率大小与给定频率之间是否存在显著差异的统计分析方法。双样本比例检验有两个总体,它们分别含有某种性质的个体的比率为P1和P2,检验的依据来自这两个总体的独立样本,检验关于两个总体比率是否有显著性差异。
样本比例指的是随机试验中某种指定事件出现的概率。随机试验中某种指定事件出现叫做“成功”,把一次实验成功的概率叫做P。
比如说,使用A方案的付费转化率为30%,使用B方案的付费转化率为34%,请问这两个转化率之间是否有显著不同?
单样本比率检验是检验样本对于总体比率是否有差异,双样本比率检验是检验两个样本比率之间是否有显著差异(感觉非常像t检验和双样本t检验),统计量如下
单样本比率检验
π0为总体比率,p为样本比率

检验功效和样本数量

样本数量

双样本比率检验
比较两样本比率是否相同,以此来检验两总体之间的差异(两独立样本比率检验):当二者的np和n(1-p)都大于5时,可以用z检验近似代替。
如果两个样本的所在总体是相同的,即检验两样本的比率差值d=0时,可以用以下代替

则此时的检验统计量为

当两个样本比率差异d!=0时,双样本的比率检验的近似Z检验统计量为

检验功效和样本数量
检验功效:
假设检验与样本数量分析

卡方检验

χ2值计算的都是试剂观察值与目标值得差距,统计公式如下

(1)设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差称为残差。
(2)显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。
(3)另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1000时20的残差就很小了。考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。

进行上述操作之后,就得到了常用的χ2统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为χ2,其计算公式为如上。其中,A为i水平的观察频数,E为i水平的期望频数,n为总频数。
卡方检验最常见的用途就是考察某无序分类变量各水平在两组或多组间的分布是否一致实际上,除了这个用途之外.卡方检验还有更广泛的应用。具体而言,其用途主要包括以下几个方面:
(1)检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布、是否服从均匀分布、是否服从Poisson分布等。
(2)检验某个分类变量各类的出现概率是否等于指定概率。如在36选7的彩票抽奖中,每个数字出现的概率是否各为1/36;掷硬币时,正反两面出现的概率是否均为0.5。
(3)检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产品合格(二分类变量)有关。
(4)检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。如在上例中,控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关;控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。
(5)检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果是否一致。

适用情况

适用于四格表应用条件:

1)随机样本数据。两个独立样本比较可以分以下3种情况:
  • (1)所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验。
  • (2)如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验。
  • (3)如果有理论数T<1或n<40,则用Fisher’s检验。
2)卡方检验的理论频数不能太小。

R×C表卡方检验应用条件:

  • (1)R×C表中理论数小于5的格子不能超过1/5;
  • (2)不能有小于1的理论数。如果实验中有不符合R×C表的卡方检验,可以通过增加样本数、列合并来实现。

fisher精确检验

fisher精确检验基于超几何分布,不依赖于任何大样本数据分布的假设,因而可以看出,在小样本的情况下,fisher精确检验适用于小样本的情况。
超几何分布 超几何分布是统计学上一种离散概率分布。它描述了从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件的次数(不放回)。称为超几何分布。

  1. 超几何分布的模型是不放回抽样。
  2. 超几何分布中的参数是M,N,n,上述超几何分布记作X~H(n,M,N)。

2x2列联表

None men women total
Dieting a b a+b
No-dieting c d c+d
total a+c b+d a+b+c+d

评价节食行为在男性和女性中是否存在差异,此情况可以使用fisher精确检验进行检验。Fisher精确检验的p值(双侧)为小于等于当前组合的概率之和。
如上文,出现上述情况的概率为下

n = a+b+c+d

组合1

None men women total
Dieting 1 9 10
No-dieting 11 3 14
total 12 12 24

则上述组合的概率为

比上述组合概率更小的为以下组合

None men women total
Dieting 0 10 10
No-dieting 12 2 14
total 12 12 24

上述组合的p值为p=0.000033652
则上述组合的fisher检验结果为
p=0.00134+0.000033652 =0.001379728
远小于0.05,因而男性女性在节食事件上差异时极显著的。

个人感想

由于fisher精确检验计算中包含大量的阶乘运算,因而在计算机没有广泛运用的情况下,fisher精确检验只能用于一些小样本量的检验。而卡方检验则不同,当样本数量越多的时候,可以用正态分布近似替代运算卡方检验,因而卡方检验适合样本量较大且每个观察值大于5的情况。卡方检验有多种适用情况,还需要继续学习 [卡方检验-MBA智库]
因而对于不同检验的使用条件,有知乎大佬总结如下

  • 1)期望np和n(1-p)>5时,且总样本量大于40(最好100以上)时,四格列联表的卡方检验与双样本比率检验是实质等效的。后者实际是一种特殊形式的卡方检验,可以推导出来的。
    同样的,期望np和n(1-p)>5时,且总样本量大于40,最好100时,二分类拟合优度的卡方检验与单样本比率检验也是实质等效的。
  • 2)期望np或n(1-p)较小时(例如1~5),或n较小时,两者都不精确。列联表卡方要改用精确检验法(例如Fisher精确检验),比率检验采取对p修正的方法,将p=x/n变为p=(x+0.5)/(n+1)。前者精确度更高,推荐前者。
  • 3)期望np或n(1-p)太小或样本量太小时,两种方法都价值不大,所谓的精确检验都是误差极大的检验。样本信息量太少时,任何方法都没用。
    作者:简并,来源:知乎
    (如有错误,敬请指出,感谢)

参考资料

柳向东-《非参数统计-基于R语言案例分析》
卡方检验-MBA智库
百度百科-超几何分布
Fisher精确检验
Fisher检验
作者:简并,来源:知乎

你可能感兴趣的:(离散型数据检验方法学习)