伯克森悖论

今天学到了一个很有趣的统计学名词,叫做“伯克森悖论”(Berkson's paradox),也称为“伯克森偏见”(Berkson's bias)。

它指的是,当不同样本被纳入统计的概率不同时,样本的两个不显著相关的特征就能够表现出一定的相关性

仔细想想也没错,因为抽样方法的错误,导致样本不能代表总体,所以可能就会得到错误的结论(即观察到相关性)。这属于理性的思考。

但当伯克森悖论发生在生活中时,我们往往就无法做到理性思考了。

下面给你举个例子。

假设男人的长相和性格是两个不相关的特征,如下图所示,一个点就代表了一个男人,对所有点进行拟合,得到一条斜率为 0 的直线,代表了从总体上来看,长相与性格无关:

伯克森悖论_第1张图片

但在有的女人眼里就不是这样了(这里没有性别歧视的意思哈,只是为了举例子),有的女人就只愿意接触长相和性格都达到一定水平的男人,即要满足:

长相 + 性格 ≥ 某个阈值

也就是下图右上角区域的男人。

伯克森悖论_第2张图片

对这部分男人的长相和性格进行拟合,发现居然长相和性格呈现了负相关的关系(斜率为负)!所以这些女人就会说,以我多年经验发现,长相帅的男人,大多性格都不太好。

你说她错吧,她也没错,她观察到的现象就是这样子,但你总觉得哪里不对,却也找不到证据来反驳她。

这样的例子还有很多,你是否也听说过下面的经验之谈:

  1. 越漂亮的人,越不聪明;
  2. 越聪明的人,表达能力越差;
  3. 流行音乐/书籍都没什么深度;
  4. ......

现在,知道了“伯克森悖论”以后,你就知道如何来解释这种现象了 —— 我们每个人的生活经历不同,所接触到的人也不同,我们通过有限观察得到的结论,并不一定适用于其他人,因为我们观察到的样本分布,并不能代表总体样本的分布

另外,如果你还了解“幸存者偏差”的话,可能会觉得和“伯克森悖论”很像。确实,这两个概念,描述的都是“选择偏差”,出错的根本原因在于抽样得到的样本不能代表总体。两者区别在于,“幸存者偏差”研究的对象是一个特征,描述的是在一个特征维度上抽样不均匀所导致偏差的现象;而“伯克森悖论”研究的对象是两个不相关特征,描述的是抽样不均匀所导致两个特征呈现一定的相关性的现象。

最后,我想说的是,如果你能从生活和工作中总结出什么经验,那么恭喜你,你是个善于发现和总结的人,我欢迎你分享你的收获,但也请你不要把你的经验强加在我身上,因为,我们不一样。

你可能感兴趣的:(机器学习,人工智能,深度学习,统计学,编程语言)