因果推断——引子

辛普森悖论(Simpson's Paradox)

由英国统计学家E.H.Simpson于1951年提出:

在某个条件下的两组数据,分别讨论时均会满足某种性质,可一旦合并考虑则会导致相反结论的现象。

辛普森悖论实例

1. 法学院

性别 录取 拒收 总数 录取比例
男生 8 45 53 15.1%
女生 51 101 152 33.6%
合计 59 146 205

2. 商学院

性别 录取 拒收 总数 录取比例
男生 201 50 251 80.1%
女生 92 9 101 90.1%
合计 293 59 352

3. 汇总两个学院

性别 录取 拒收 总数 录取比例
男生 209 95 304 68.8%
女生 143 110 253 56.5%
合计 352 205 557

能够看到由1 & 2 两个单独的汇总结果来看,女生的录取比例都会很高

但是综合两院数据,女生的录取比例反而比男生低。

这说明简单地将分组数据加总汇合是无法反映真实情况的。

辛普森悖论的两点思考

1. 分组差异过大

例如上例就能很好地展现这一点,法学院录取率很低二商学院较高,而同时两种性别的申请者比重又恰巧相反。因而从数量上来说,拒收率搞得法学院拒绝了大多数女生,而男生在法学院虽然有更高拒收率,但被拒收的数量相对总体并不多。

2. 潜在因素影响

我们猜想,在录取过程中,性别并非是录取率高低的唯一因素,甚至可能与其毫无关系,在学院中出现的比率差可能是随机事件。

影响录取情况的可能是“潜在因素” (通常被称为“混杂偏倚现象”)

下面用一个人工构建的例子来解释这种思考。

因果推断中的“混杂偏倚现象”

许多因果推断的教材中所考虑的辛普森悖论,实际上就是指悖论的第二点思考——潜在因素影响,因而混杂偏倚通常与Simpson’s Paradox(or Yule-Simpson Paradox)划等号。

合并表 康复 未康复 康复率
吃药 20 20 50%
安慰剂 16 24 40%
男性组 康复 未康复 康复率
吃药 18 12 60%
安慰剂 7 3 70%
女性组 康复 未康复 康复率
吃药 2 8 20%
安慰剂 9 21 30%

我们观察上面的一个高维列联表,能够发现整体人群中,吃药与康复之间存在正相关,而划分组别后男女两组又都呈现负相关的有趣现象。

我们将其抽象为数学语言则是:

和 边缘上正相关,但是给定另外一个变量 后,在 的每一个水平上, 和 可能负相关。

这种情况用因果图理论图示出来,

就是在因果推断教材中常听到的——有向无环图(Directed Acyclic Graph, DAG)

image

有向无环图的相关内容我们暂且不表

你可能感兴趣的:(因果推断——引子)