计算置信区间(Confidence Intervals,CI)的方法有很多种,bootstrapping仅仅是其中的一种。
1.bootstrap计算置信区间(CI)
Bootstrapping定义:对观测数据集进行有放回(replacement)的随机抽样,以评估总体的各项统计指标。
bootstrapping示例:对12个小鼠体重数据进行bootstrap计算,主要分以下步骤:
1)从该12个数据中有放回的随机选取12个样本(有些样本可能被抽2次及以上);
2)计算第一次有放回随机选取12个样本的均值;
3)重复前两步的数据,直至计算出很多的均值(如均值数>10,000)。
将bootstrapping重复10,000以上获得的均值们数据绘制在坐标轴上。
95%CI: 计算包含有95%均值们的区间,该含有95%均值们的区间被称之为95%CI。
99%CI: 计算包含有99%均值们的区间,该含有99%均值们的区间被称之为99%CI。
2.CI的作用
「小概率事件:95%CI包含95%的均值们,所以任何发生在95%CI之外事件的概率小于5%」。也就是说,任何发生在95%CI之外事件的p值小于5%,说明具有显著差异。
单样本与已知总体的检验
-
假设某样本均值位于95%CI范围内,那么说明该事件来自我们的样本总体,说明该样本与我们的总体不具有显著差异性;
- 假设某样本均值<20,也就是说它不位于95%CI范围内,说明该事件不是来自我们的样本总体,该样本与我们的总体具有显著差异性。
两样本检验
- 假设上方的结果为雌性小鼠的体重结果,下方的结果为雄性小鼠的体重结果。黑色横线对应的部分分别为两样本的95%CI。当两样本的95%CI未发生重叠时,说明两样本数据具有显著差异性。
- 当两样本的95%CI未发生重叠时,对结果的判定稍微有点麻烦。在这种情况下,两样本数据仍然有可能性具有显著差异性,此时我们需要借助两样本t-test进行判定。
3.p值与概率(Probability)
- p值与概率是相关的,但不是完全等同的。
- 「概率的定义较简单,概率(probability)=目标事件的发生次数/总事件的发生次数。」
- 「p值是随机生成某数据的概率,某数据由3部分组成:目标事件、概率等于或小于目标事件的其他事件。」
原文表述:P value is the probility that rendom chance generated the data,
P值计算的实例展示
1)分类变量中计算p值与概率(简单的例子):随机掷两次硬币,两次结果均是正面朝上(HH)的概率(probability)为1/4;两次结果均是背面朝上(TT)的概率为1/4;一正一反(HT或TH)的概率为1/2。那么两次结果均是正面朝上(HH)的p值为多少呢?
- HH的P值 = probability(HH,HH目标事件)+probabiltity(TT,与HH概率相等事件)+ probability(比HH概率更小事件)=0.25+0.25+0 = 0.5
2)分类变量中计算p值与概率(稍微复杂一点的例子):如果掷5次硬币,那么5次均得到正面向上(HHHHH)的结果的概率为多少?对应的p值为多少呢?
Probability(HHHHH) = 1/32=0.03125
P-value(HHHHH)=probability(HHHHH,目标事件)+probabiltity(TTTTTT,与HHH HH概率相等事件)+ probability(比HHHHH概率更小事件)=1/32+1/32+0=0.0625
3)连续变量中计算概率与p值:
某个区间对应的 曲线下面积 代表 该 区 间范围内事件发生的 概率。142cm-169cm区间对应的分布曲线下面积为95%,提示样本中大多数身高数据居于142cm-169cm区间。
计算某人身高为142cm的P值:
P-value(142) = probability(142,目标事件)+probability(169,与142概率相等的事件)+probability(<142 和>169,比142概率更小的事件)= probability(≤142)+probability(≥169)=0.05
计算身高在155.4到156cm之间的概率和p值:
接着,在同样的案例中,再计算身高在155.4到156cm之间的概率和p值。由于区间非常窄,在155.4-156cm范围的概率仅为0.04,其对应的曲线下面积基本就相当于一条红线了,如下所示:
同前面的计算:
P-value(155.4-156)=probability(155.4-156) + probability(与155.4-156概率相同的事件)+probability(比155.4-156概率低的事件)=probability(155.4-156) + probability(与155.4-156概率相同的事件)+probability(<155.4或>156)=0.04+0+(0.48+0.48)=1
注意,在该示例中,虽然身高在155.4-156cm范围的概率很小(0.04),但身高在155.4-156cm范围的p-value却很大(为1)。所以p值和概率是存在差异的。
4.小结
这一小节中,小编主要跟大家介绍了置信区间和p值的计算,相信大家对CI与p值的印象更加深刻了。我们的终极目标是,以后在运用中能够更加深刻的了解什么是CI,什么是P值。
参考视频:
1.https://www.youtube.com/watch?v=TqOeMYtOc1w&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=27
2.https://www.youtube.com/watch?v=vemZtEM63GY&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=10
3.https://www.youtube.com/watch?v=JQc3yx0-Q9E&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=11