概念整理——对样本的大小不敏感(附录A)by燕传熙(共读7)

1.对样本的大小不敏感:

(中信版)在某个指定大小的样本中,评估获得某个特定结果的概率时,人们总会应用代表性启发法,即他们会通过某个样本结果与相关参数的相似性来评估这个结果的概率。
(台版)评估从某个特定母群取得某个特定结果的几率时,人们通常采用表征捷径,也就是说,他们评估这个样本结果的可能性,会以这个结果与相关参数的相似性为判断标准。

2.样本理论(台版:抽样理论sampling theory)

书中没有解释,在WIKI百科中找到关于抽样的解释。
WIKI百科:
https://zh.wikipedia.org/wiki/%E6%8A%BD%E6%A8%A3

在统计学中,抽样(Sampling)是一种推论统计方法,它是指从目标总体(Population,或称为母体)中抽取一部分个体作为样本(Sample),通过观察样本的某一或某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识。

基本过程

抽样过程主要包括以下几个阶段:
定义总体(母体)
确定抽样框
确定抽样方法
决定样本量
实施抽样计划
抽样与数据收集
回顾抽样过程

总体
目标是所要研究的对象的全体。例如,制造商检查某个批次的产品质量是否合格,目标总体就是这一批次的产品。抽样总体是用于从中抽取样本的总体。按理,抽样总体应该与目标总体一致,但实践中时常发生不一致的情况。例如,科学家通过小白鼠试验来检测药物用于人类总体的效果。

抽样框
在抽样之前,总体应划分成抽样单位,抽样单位互不重叠且能合成总体,总体中的每个个体只属于一个单位。抽样框是一份包含所有抽样单元的名单。

抽样方法
简单随机抽样(simple random sampling),也叫纯随机抽样。从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的概率被抽中。特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法[1]。
系统抽样(systematic sampling),也称等距抽样。将总体中的所有单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k、r+2k……等单位。这种方法操作简便,可提高估计的精度。
分层抽样(stratified sampling)。将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近,从而提高估计的精度。
整群抽样(cluster sampling)。将总体中若干个单位合并为组,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。抽样时只需群的抽样框,可简化工作量,缺点是估计的精度较差[2]。

3.后验概率:

(中信版)从一个整体而不是另一个整体中抽取样本的概率。
(台版)后验几率(posterior probability)一个样本从这个母群中随机抽取而来,还是从另一个母群中而来的几率。
WIKI百科:

后验概率
https://zh.wikipedia.org/wiki/%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87
在贝叶斯统计中,一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。

实例
假设一个学校里有60%男生和40%女生。女生穿裤子的人数和穿裙子的人数相等,所有男生穿裤子。一个人在远处随机看到了一个穿裤子的学生。那么这个学生是女生的概率是多少?
使用贝叶斯定理,事件A是看到女生,事件B是看到一个穿裤子的学生。我们所要计算的是P(A|B)。
P(A)是忽略其它因素,看到女生的概率,在这里是40%
P(A')是忽略其它因素,看到不是女生(即看到男生)的概率,在这里是60%
P(B|A)是女生穿裤子的概率,在这里是50%
P(B|A')是男生穿裤子的概率,在这里是100%
P(B)是忽略其它因素,学生穿裤子的概率,P(B) = P(B|A)P(A) + P(B|A')P(A'),在这里是0.5×0.4 + 1×0.6 = 0.8.
根据贝叶斯定理,我们计算出后验概率P(A|B)
{\displaystyle P(A|B)={\frac {P(B|A)P(A)}{P(B)}}={\frac {0.5\times 0.4}{0.8}}=0.25} P(A|B)={\frac {P(B|A)P(A)}{P(B)}}={\frac {0.5\times 0.4}{0.8}}=0.25。
可见,后验概率实际上就是条件概率。

4.后验胜率

(仅见台版porterior odds)书中没有解释,待定。

5保守主义:

(中信版)在这类对概率的评估中,低估证据的影响反复出现的情况。
(台版conservatism)在样本大小类型的问题里,重复观察到的对证据影响力的低估。

你可能感兴趣的:(概念整理——对样本的大小不敏感(附录A)by燕传熙(共读7))