统计基础09:置信区间与p值的计算

计算置信区间(Confidence Intervals,CI)的方法有很多种,bootstrapping仅仅是其中的一种。

1.bootstrap计算置信区间(CI)

  • Bootstrapping定义:对观测数据集进行有放回(replacement)的随机抽样,以评估总体的各项统计指标。

  • bootstrapping示例:对12个小鼠体重数据进行bootstrap计算,主要分以下步骤:

  • 1)从该12个数据中有放回的随机选取12个样本(有些样本可能被抽2次及以上);

  • 2)计算第一次有放回随机选取12个样本的均值;

  • 3)重复前两步的数据,直至计算出很多的均值(如均值数>10,000)。

统计基础09:置信区间与p值的计算_第1张图片

将bootstrapping重复10,000以上获得的均值们数据绘制在坐标轴上。

95%CI: 计算包含有95%均值们的区间,该含有95%均值们的区间被称之为95%CI。

99%CI: 计算包含有99%均值们的区间,该含有99%均值们的区间被称之为99%CI。

统计基础09:置信区间与p值的计算_第2张图片

2.CI的作用

「小概率事件:95%CI包含95%的均值们,所以任何发生在95%CI之外事件的概率小于5%」。也就是说,任何发生在95%CI之外事件的p值小于5%,说明具有显著差异。

单样本与已知总体的检验

  • 假设某样本均值位于95%CI范围内,那么说明该事件来自我们的样本总体,说明该样本与我们的总体不具有显著差异性;

  • 假设某样本均值<20,也就是说它不位于95%CI范围内,说明该事件不是来自我们的样本总体,该样本与我们的总体具有显著差异性。

两样本检验

  • 假设上方的结果为雌性小鼠的体重结果,下方的结果为雄性小鼠的体重结果。黑色横线对应的部分分别为两样本的95%CI。当两样本的95%CI未发生重叠时,说明两样本数据具有显著差异性。
    统计基础09:置信区间与p值的计算_第3张图片
  • 当两样本的95%CI未发生重叠时,对结果的判定稍微有点麻烦。在这种情况下,两样本数据仍然有可能性具有显著差异性,此时我们需要借助两样本t-test进行判定。
    统计基础09:置信区间与p值的计算_第4张图片

3.p值与概率(Probability)

  • p值与概率是相关的,但不是完全等同的。
  • 「概率的定义较简单,概率(probability)=目标事件的发生次数/总事件的发生次数。」
  • 「p值是随机生成某数据的概率,某数据由3部分组成:目标事件、概率等于或小于目标事件的其他事件。」

原文表述:P value is the probility that rendom chance generated the data,

P值计算的实例展示

1)分类变量中计算p值与概率(简单的例子)随机掷两次硬币,两次结果均是正面朝上(HH)的概率(probability)为1/4;两次结果均是背面朝上(TT)的概率为1/4;一正一反(HT或TH)的概率为1/2。那么两次结果均是正面朝上(HH)的p值为多少呢?

  • HH的P值 = probability(HH,HH目标事件)+probabiltity(TT,与HH概率相等事件)+ probability(比HH概率更小事件)=0.25+0.25+0 = 0.5

2)分类变量中计算p值与概率(稍微复杂一点的例子):如果掷5次硬币,那么5次均得到正面向上(HHHHH)的结果的概率为多少?对应的p值为多少呢?

统计基础09:置信区间与p值的计算_第5张图片

统计基础09:置信区间与p值的计算_第6张图片

Probability(HHHHH) = 1/32=0.03125

P-value(HHHHH)=probability(HHHHH,目标事件)+probabiltity(TTTTTT,与HHH HH概率相等事件)+ probability(比HHHHH概率更小事件)=1/32+1/32+0=0.0625

3)连续变量中计算概率与p值:

统计基础09:置信区间与p值的计算_第7张图片

某个区间对应的 曲线下面积 代表 间范围内事件发生的 概率。142cm-169cm区间对应的分布曲线下面积为95%,提示样本中大多数身高数据居于142cm-169cm区间。

计算某人身高为142cm的P值

P-value(142) = probability(142,目标事件)+probability(169,与142概率相等的事件)+probability(<142 和>169,比142概率更小的事件)= probability(≤142)+probability(≥169)=0.05



计算身高在155.4到156cm之间的概率和p值

接着,在同样的案例中,再计算身高在155.4到156cm之间的概率和p值。由于区间非常窄,在155.4-156cm范围的概率仅为0.04,其对应的曲线下面积基本就相当于一条红线了,如下所示:

统计基础09:置信区间与p值的计算_第8张图片

同前面的计算:

P-value(155.4-156)=probability(155.4-156) + probability(与155.4-156概率相同的事件)+probability(比155.4-156概率低的事件)=probability(155.4-156) + probability(与155.4-156概率相同的事件)+probability(<155.4或>156)=0.04+0+(0.48+0.48)=1

注意,在该示例中,虽然身高在155.4-156cm范围的概率很小(0.04),但身高在155.4-156cm范围的p-value却很大(为1)。所以p值和概率是存在差异的。

统计基础09:置信区间与p值的计算_第9张图片

4.小结

这一小节中,小编主要跟大家介绍了置信区间和p值的计算,相信大家对CI与p值的印象更加深刻了。我们的终极目标是,以后在运用中能够更加深刻的了解什么是CI,什么是P值。


参考视频:
1.https://www.youtube.com/watch?v=TqOeMYtOc1w&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=27
2.https://www.youtube.com/watch?v=vemZtEM63GY&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=10
3.https://www.youtube.com/watch?v=JQc3yx0-Q9E&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=11

你可能感兴趣的:(统计基础09:置信区间与p值的计算)