研究者常用三种工具来得出上面问题的回答
检验统计显著性
计算效应性
置信区间
- 推断统计量:使用从总体中随机抽取的数据样本,描述总体并对其进行推断。(即推断统计量总是根据一个样本或样本组中收集的数据来对更大的总体进行推断)当不方便或不可能检查整个总体的每个成员时,推断性统计非常有用
- 描述统计量:描述性统计量提供数据的简要汇总。可以用数值或图形方式汇总数据
[图片上传失败...(image-ff992f-1599483877510)]
统计显著性
指样本统计量代表抽样总体中某种真实现象的可能性或者概率
当我们认为一项统计结果是统计显著的时候,实质上是认为从样本中发现的结果,代表了从中抽样的总体所具有的某种效应
α和β
总体和样本
样本:从中收集数据的个体或群体
总体:是样本的理应代表的个体或群体
之所以要明确这一定义,目的是为了让我们在解释结论时能够完全解释清楚
概率
概率对于推断统计量而言至关重要。当我们计算一项推断统计量时,该统计量具有一种抽样分布。所有的统计量都有抽样分布和标准误,相关系数,方差分析的F比率,t检验的t值以及回归系数等无不如此。
举个例子,如果我了解到某国男性总体的平均鞋码是9,因为这个是关于总体的,已知均值,所以这一均值是参数,而不是统计量,现在假设随机抽取1000人的一个样本,发现其平均鞋码是10,标准差是2,注意到样本的均值是来至于样本,而不是总体,所以它是一个统计量,有了这些数字,我就能够回答两个不尽相同却相互关联的问题.
首先,如果总体的平均鞋码确实是9,那么抽到平均写码为10的1000人随机样本的概率是多少?
其次,我的总体均值10和我的样本均值时之间的差异,是否统计显著?
随机抽样误差或随机机会:如果总体均值确实是9,并且我的样本真的是随机选择的,那么我只能以一定概率或机会,最终得到一个平均鞋码是10的1000个男人的样本
通过计算出的t值和t分布表对比可得,此时的p值远小于0.001,得出第一个问题的答案
假设检验
在计算统计量并决定结果是否统计显著之前,应该建立一种标准或基准,为此,我们提出一种假设并确立一种准则用于确定保留或拒绝假设。一般会先正面做出一个效应不存在的假设,称为零假设H0 ,与之相对应的是备择假设H1
这里我们注意到备择假设只是说明两者不同,并没有指定不同的方向,这就是双尾假设。但如果假设是定向的(例如非劣效性检验),则构成了单尾假设:
具体思路是:先根据收集到的数据计算出一个统计量,如t值,然后根据相应的分布计算出,至少得到该统计量的p值是多少,最终做出结论。一般认为p<0.05时,我们就能拒绝H0 ,并作出结论认为统计量和参数之间的差异不是偶然的
“一般零假设是想推翻的,备择假设是想证实的。”
ps.有时候H0 中的参数可以不为0,而是某个具有有点专业意义的值。如想检验两组差值是否为0.5时,零假设为:H0 :u1 -u2 =0.5
注意此时的p值与后面的α值相联系,即你犯Ⅰ型错误的水平
两类错误
有一家化工厂, 一直在排放污染物。环保署接到举报,于是派调查人员前去展开调查。根据环保署的标准,排放浓度的上限是万分之三。所以调查人员就进行抽样调查,随机抽取了几个排放点,检测排放的污染物的浓度。经过调查人员的努力,调查结果出来了,排放浓度是万分之四,高于排放标准上限。那么现在问题来了:要不要让它关门整顿? 根据之前的理解,我们只是抽样而已,可能恰好抽取到了浓度高的地方,所以说实际上工厂到底有没有达到上限,都是概率问题。
1、判断该工厂的排污浓度是否超标?
其实这里要用到假设检验思想,先设定原假设,即这家工厂的排污浓度没有超标(一般原假设是效应为0的假设)。然后根据收集的数据进行统计推断,最后计算统计量和P值,做出统计学结论。 结论只可能有两种:
①是认为超标
-
②是认为没有超标。
而事实也有两种:
实际上真的超标了
二是实际上并没有超标。
结论合并,可以得出下列的组图
所谓Ⅰ型错误,就是环保署冤枉了该厂,本来该厂的排污浓度并未超标,但环保署认为它超标了。在这种情况下,该厂吃亏了(无缘无故被勒令停工好几个月)。所谓Ⅱ型错误,就是你放纵了该厂,本来该厂的排污浓度超标了,环保署却认为它没有超标。在这种情况下,附近老百姓吃亏了(继续忍受污染)。
换言之
Ⅰ型错误就是去真求伪(假阳性错误)
Ⅱ型错误就是存伪(假阴性错误)
Ⅰ型错误和Ⅱ型错误通常又称为假阳性错误和假阴性错误, 一般用α和β来表示。 它们在不同领域有不同的含义。(可以参考GWAS分析中的假阳性和假阴性)
2、假阳性和假阴性之间的关系
Ⅰ型错误和Ⅱ型错误是一种此消彼长的关系,Ⅰ型错误增大,Ⅱ型错误会减少;反之,Ⅰ型错误减少,Ⅱ型错误会增大。
上图显示的是一组高血压人群和一组非高血压人群的收缩压分布情况,左边白色曲线下代表非高血压人群,右边灰色曲线下代表高血压人群。可以看出,这两个人群有一定的交叉,换句话说,有一部分高血压人群会被误判为非高血压,有一部分非高血压人群会被误诊为高血压。 144mmHg作为划分标准(图中左边竖线),即大于147mmHg认为是高血压,否则认为是非高血压。我们可以发现有很多非高血压的人被划分到高血压组,此时误诊率会比较高! 152mmHg作为划分标准(图中右边竖线),即大于152mmHg认为是高血压,否则认为是非高血压。此时有很多高血压的人被划分到非高血压组。此时漏诊率会比较高!
因此,我们可以看出
如果提高标准,让标准更为苛刻,则可以降低假阳性,但同时会提高假阴性。同样,如果降低标准,让标准更为宽松,则可以降低假阴性,但同时会提高假阳性。
3、哪种错误更严重呢?
这取决于你站在哪一方。即你的研究目的
从环保署的角度来看,可能Ⅰ型错误更严重,因为错误地控告该工厂,可能导致该工厂恶狠狠地反咬一口,环保署需要支付高额的赔偿金。从附近居民的角度来看,Ⅱ 型错误更严重,因为如果该工厂的排污浓度超标但环保署没有发现,那该工厂会继续排放污染物,危害居民健康。
但是在很多情况下,我们很难确定到底哪种错误更严重,比如癌症的诊断,如果犯Ⅰ型错误,把本来非癌症的诊断为癌症,可能会导致她心理压力剧增,甚至真的得病;如果犯Ⅱ型错误,把癌症患者漏诊为非癌症,则可能会丧失早期治疗的最佳时期,从而导致病情的延误,所以有时候我们不得不从专业的角度综合考虑到底把假阳性和假阴性设多少为合适
目前习惯上把Ⅰ型错误设为0.05,把Ⅱ型错误设为0.1或者0.2,但这些都不是固定的!可以结合自身的情况进行适当的调整。但是大部分时候,统计学的目的就是避免Ⅰ型错误,所以可能会希望选择一个更加保守的α水平来提高安全性,比如α=0.01。但是这些都要根据具体情况来确定!
把握度
把握度=1-β(Ⅱ型错误)。 Ⅱ型错误是如果一个人有罪,而错误地判他无罪。即存伪错误 把握度就可以理解,如果他实际上有罪,而且法官正确地判断他有罪的概率。
1、举几个例子
如果两种药物的疗效确实有差异,那么把握度就是真的能发现这种差异的概率; 如果不同性别的发病率真的不同,那么把握度就是真的能发现这种不同的概率。
2、把握度到底有啥用?
很显然,一项研究的把握度越高越好,因为这意味着你能以很高的把握做出有意义的统计学结论。 通常在做组间比较计算样本量时,都会要求你设定Ⅰ型错误和把握度,然后根据相应的效应值(如组间差值)计算样本量。一般我们习惯设定Ⅰ型错误为0.05, 把握度为0.8 。但如果你有足够的经费支待你调查更大的样本量,那么为了更有把握得到一个阳性结果,你可以将把握度设为0.9甚至更高。
3、如果没有统计学差异?
有时一些文章也会要求你计算把握度,尤其在你的结果是阴性的时候(如没有发现两组数据有统计学差异)。在这种情况下,报告一下你的把握度是很有必要的。如果你的把握度很低,则说明很可能是样本量不足导致无法检验出阳性结果。换句话说,你可能在一开始设计的时候没有科学地计算样本量,样本量较小,从而导致了你的阴性结果。如果你在计算样本量时选择了一个较高的把握度,那么理论上是不会出现这种情况的。 一种有效的避错方式,注意阴性并不是假阴性,它也是一种结果
效应量
1.为什么要使用效应量?
因为当计算统计显著性的时候,会发现其对样本十分敏感,因此越来越的研究者看书重视效应量。无论是对于那种统计量,都是用分子(样本统计量与总体参数之间的差异)除以分母(标准误)时样本容量的影响巨大。
我们可以发现:当样本容量很大时,即使样本统计量与总体参数之间只有很小的差异也可以是统计显著的。
因为样本容量在决定统计显著性时影响巨大,所以许多统计学教科书对统计显著性和实际显著性进行了区别。也就是,”显著“一词的实际意义是指一种重要的差异吗?回答这个问题的一种方法是考察效应量。
以t检验为例,计算效应量时,我们用符号d来表示效应量,公式为
如你所见,效应量的公式将分子转化为以标准差为单位的形式
更加具体的知识可以参考这篇文章
2.关于效应量的解释
这个并没有一成不变的规则。一些教科书的作者建议效应量小于0.20时算小,在0.25到0.75之间算中等,超过0.80算大。当确定一个肖音量是否有意义时,重要的是考虑你检验什么以及观点是什么?
3.什么时候考虑使用效应量
与显著性检验不同,效应量不受样本容量影响。它表示不同处理下的总体均值之间差异的大小,可以在不同研究之间进行比较。平均值差异、方差分析解释比例、回归分析解释比例需要用效应量描述。当样本容量大得到显著时,有必要报告效应量大小。
在大样本容量的情况下,联合使用统计显著性和效应量测度能够对统计结果的可信度和重要性提供重要信息。
这一知识点常在meta分析(元分析)中使用
置信区间
1.置信区间的理论与实际含义
从理论上讲,95%置信区间的意思是:如果从一个总体中重复多次抽取不同的样本(如抽取1000 次),对每一个样本都可以计算一个95%置信区间(如计算出1000 个95%置信区间),那么我们期望会有95%的置信区间(如1000 个中有950 个)包含了总体参数。
因为总体参数是固定的,所以对于每次抽样样本计算的95%置信区间,要么包含总体参数,要么不包含总体参数。但总的来说,在100次抽样样本中,期望有95个区间包含了总体参数。
我们从一个均数为0.3 、标准差为0.9的总体中重复随机抽样,共抽取100个样本,每次抽样例数均为100 。这样可以对每次抽样样本都计算一个95%置信区间,共可以计算得到100个95%置信区间,如下表所示:
可以看出,在计算的100个95%置信区间中,共有95个包含了总体均数0.3,5个未包含(阴影部分)。这就是95%置信区间的理论含义。
但在实际中,我们是不可能抽样100 次的,也不可能计算100 个置信区间,事实上,绝大多数情况下只能计算1个置信区间。对千一个样本中计算的95%置信区间,其确切含义为“有95% 的信心认为该区间包含了总体参数”。
2.置信区间与P值的关系
(1)对置信区间的解释
- 置信区间的前缀数字称为置信系数,一般我们习惯用95%, 但这并非唯一选择,根据研究目的也可以用90%、99%等。
- 置信系数越大,所得的区间越宽;置信系数越小,所得的区间越窄。
- 置信区间的宽窄反映了对参数估计的精确度,置信区间越窄,说明估计越精确;置信区间越宽,说明估计越不精确,但更为可靠。
- 我估计一个人的身高在10~300cm 之间,这一说法非常可靠,但是精确度很差,没什么实际价值。
自信区间在做统计学结论时与p值有异曲同工之妙,例如对于参数等于零做这样一个H0,如果P值小于0.05,那么计算的该参数估计值的95%置信区间一定不包含0,反之,如果P值大于0.05,那么计算的该参数的估计值的95%置信区间一定包含0
(2)孰优孰劣?
尽管置信区间和P值可以做出一样的统计学结论,但置信区间可以提供更多的信息
置信区间只是告诉我们一种概率,即当无效假设成立时,出现当前结果(或者更极端结果)的概率。但我们并不知道计算的结果与无效假设差别有多大,当样本例数很大时,即使轻微的偏离也会出现一个很小的P值。如无效假设为两组收缩压的差值为0,如果每组例数为10000人,那么即使两组收缩压的差值为0.1,也会出现P<0.05 的结论。但0.1这种差值是否有实际意义呢?仅从P值是看不出来的置信区间还可以提示与无效假设的参数偏离有多远,如无效假设为两组收缩压的差值为0,最后计算95%置信区间为(0.1,0.15 ), 这至少提示两点:第一,两组差异有统计学意义,因为置信区间没有包含0; 第二,两组总体的差值并不大,因为我们有95% 的信心认为两组差值在0.1 ~0.15 之间。这说明尽管结果有统计学意义,但从专业角度来看,收缩压差别太少,没有太大的实际价值。这一信息是P值所无法提供的。
根据置信区间,我们可以知道计算结果和假设之间的差异大小,并可以用专业角度来判断其实际意义
(3)两者与样本量的关系
一般来说,样本量越大,计算的置信区间越窄,精度越高,此时P值也会越小。因为样本量越大,抽样误差越小。当样本量跟总体一样多时(相当于普查),就没有抽样误差了,计算的置信区间就窄成了只有一个值。而此时也没有P值了,因为根本不用统计推断,计算的指标已经是参数了,也就没有“样本统计量推断总体参数”这一说法了。
3.用标准误来计算p值
一般置信区间表示为(参数估计值±边际误差)这一形式。所谓边际误差,是因为样本与总体总是有一定差异的,在进行总体参数估计时需要把这一差异考虑进来。根据中心极限定理可以知道,从任何分布中抽样,只要样本量足够大,其统计量终会服从正态分布。边际误差通常用对应一定正态分位数的Z值(标准差倍数)再乘以表示抽样误差的标准误来表示。实际中一般习惯计算的是95%置信区间,因此一般表示为“参数估计值±1.96 x标准误"(1.96是95%置信区间的下分位数)
当然有很多时候样本量不够大,那我们就将公式里的Z值变为t值,根据t界值表来查出对于的t值
[图片上传中...(image-11c1cc-1599483728284-10)]
下列公式中,p为阳性率
[图片上传中...(image-ba5f9-1599483728284-9)]
发文提醒
如果如果你要报道一个阳性率,而阳性数又特别少,那么最好同时报导置信区间,如1000人中发现了两例患者,其阳性率为0.02%(95%CI: 0.00 %—0.48%)这样可以给读者提供更多的信息
4.利用Bootstrap法估计置信区间
(1)背景知识
我们刚才提到了均数、率的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。但如果我们想知道中位数的置信区间,那该怎么办呢?中位数一般用在偏态分布的情况下,这时候就不好确定其分布面积0.05所对应的分值了。 那应该如何解决这一问题呢? 事实上,不仅中位数,还有其他参数同样面临这一问题。当找不到合适的分布时,就无法计算置信区间了吗?幸运的是,有一种方法几乎可以用于计算各种参数的置信区间,这就是Bootstrap 法。 Bootstrap估计是利用重复抽样的方法对参数进行估计的,它是在计算机普及以后才开始发展起来的,因为如果没有计算机辅助进行重复抽样,靠手工是极其麻烦的。
(2)Bootstrap 估计的思想
这一方法和Permutation Test (置换检验)的思路有着异曲同工之处,但注意该方法采用的是有放回的抽样(即单次抽样可能出现重复的数据)
其主要思想计算构建一个次数足够大的抽样分布
假定我们从某所学校中随机抽样调查了20名学生的身高,打算通过这20人的身高估计该学校所有学生(如200 人)的身高。
如果采用常规的思路,则计算出20人身高的均数为166.2cm, 标准误为1.44。由此估计总体的身高均数为166.2cm, 其95%置信区间为(163.2,169.2), 也就是说,有95%的信心认为(163.2,169.2) 区间包含了该学校所有学生的总体身高。
Bootstrap估计的思路就是从这20人中重复抽样。具体来说,以这20人作为抽样框,做1000次抽样(当然也可以是100次、2000次、甚至10000次等,视具体情况而定),有放回抽样!
假定我们重复抽取10次,这10次抽取的数据如下图所示
[图片上传中...(image-c695f2-1599483728284-7)]
根据Bootstrap 抽样,可以对每次抽样都计算出一个均数。
然后以这10个均数作为原始数据,求出这10个均数的均数为166.15, 这就是利用Bootstrap 法进行的点估计。
对于95%置信区间,则分别计算出第2.5%和第97.5%的分位数,如本例为164.25和169.75,这也就是估计的总体均值的95%置信区间,与常规方法计算的95%置信区间比较接近。
以上的方法被称为百分位数法,关于百分位数法,我们需要知道以下几点
百分位数法简单易懂,无须复杂b计算,只要有了Bootstrap 样本及每个样本的统计量,找到相应的百分位数即可。
它必须满足一个潜在的假定,即Bootstrap 抽样分布是样本统计量分布的一个无偏估计,当有偏的时候,估计结果可能也会有偏,因此会用百分位数t法。
百分位数t法
- 计算原始样本数据中的统计量,如中位数,由于它是总体的估计值,所以我们给他加一顶帽子,用
表示
- 从原始数据中进行Bootstrap 抽样假定,抽取1000次,对于第一个Bootstrap 样本计算其相应的统计量(如中位数),由于它是对样本数据再一次抽样后的估计值,所以我们再给他加一个标记,用
表示
- 计算
与的标准偏离,即:![as4IrF.png](https://upload-images.jianshu.io/upload_images/20852408-b6c379c1d4e8250f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 式中,分母是Bootstrap样本计算的统计量(如中位数)的标准误,这个式子实际上就是一个t分布的形式,只不过字母含义变了
- 对于95%置信区间,确定0.025和0.975的百分位数,则95%置信区间为:
![as4O8x.png](https://upload-images.jianshu.io/upload_images/20852408-042d650cb187d20d.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
目前研究并没有表明那种方法最优,没有一个完全适用所有情况的方法。但是由于百分位数法简单易用,所有实际中应用更加广泛
总结
传统的参数推断主要依赖中心极限定理,因为它规定在大样本条件下,抽样分布都是服从正态分布的。但对于某些抽样分布未知或难以计算的统计量, Bootstrap 法就十分有用了。事实上,即使对于参数推断, Bootstrap 法也可以显示出与其同样的功效。但是我们要知道的是,对于参数统计,特别是在已知分布的参数估计,bootstrap并没有多大的意义,它的结果和矩估计或者极大似然估计的结果并没有多大的差别。
接下来我们举两个例子
(1)计算两个中位数之差的置信区间
采用Bootstrap法的思路是:从样本数据中重复抽取1000次样本,每次抽取n例。在每个Bootstrap样本中,计算两组的中位数之差,最终可计算出1000个中位数之差。然后根据这1000个中位数之差,计算出它们的第2.5 百分位数和第97.5百分位数,这就是两个中位数之差的95%置信区间。如果该置信区间不包含0, 则可以认为两组差异有统计学意义;否则认为两组差异无统计学意义。
(2)计算回归系数的置信区间
假定样本数据有因变量y和自变量x, 采用Bootstrap 法的思路是:从样本数据中重复抽取1000次样本,每个样本都包含y和x, 每次抽取n例。在每个Bootstrap样本中,求出y=a+bx的系数a和b (当然我们关心的是回归系数b) 。最终可计算出1000个回归系数b。然后根据这1000 个回归系数,计算出它们的第2.5百分位数和第97.5百分位数,这就是回归系数的95%置信区间。如果该置信区间不包含0, 则可以认为该回归系数有统计学意义;否则认为该回归系数无统计学意义。 回归分析的Bootstrap抽样不应进行个体数据的重复抽样,而是要对误差进行重复抽样。因为他们认为,自变量是固定的,只有误差项才是随机的。但这一情况可能只是适用于实验室情况,在实际的医学研究中,自变量在很多情况下并不是一成不变的
通过一段时间的学习发现,计算机出现后,最喜欢用的方法基本上都可以和构建次数较高的抽样分布来对总体进行估计
代码实战
library(boot)
beta<-function(formula,data,indices){
d<-data[indices,]
fit<-lm(formula,data=d)
return(fit$coef[2])
}
result<-boot(data=women,statistic=beta,R=500,formula=weight~height)
boot.ci(result)
[参考内容]
minitab
统计学(31)-假设检验中的两类错误
白话统计学——冯国双
Statistics in Plain English—— Timothy C. Urdan
置换检验点评和Boot包自助法简介
Boot自助法