【推荐系统->统计学】辛普森悖论(Simpson‘s paradox)

辛普森悖论

辛普森悖论(Simpson’s paradox),也有其他名称,是概率和统计中的一种现象,即一种趋势出现在几组数据中,但当这些组组合在一起时,趋势就会消失或逆转。 这个结果在社会科学和医学科学统计中经常遇到,并且当频率数据被过度地给出因果解释时尤其成问题。当混淆变量和因果关系在统计建模中得到适当解决时,这个悖论就可以解决。辛普森悖论已被用来说明滥用统计数据可能产生的误导结果。

例子

加州大学伯克利分校性别偏见

辛普森悖论最著名的例子之一来自一项对加州大学伯克利分校(University of California, Berkeley)研究生院招生中的性别偏见的研究。1973年秋季的录取数字表明,男性的申请比女性更有可能被录取,而且差异如此之大,不太可能是偶然的。

在这里插入图片描述

但是,从个别学院来看,在85个学院中,有6个学院明显歧视男性,4个学院明显歧视女性。总的来说,汇总和修正的数据显示出了“小但统计上显著的偏向女性”来自六个最大的学院的数据如下所示,按男女申请者人数排列的前两个学院的数据用斜体标出。

【推荐系统->统计学】辛普森悖论(Simpson‘s paradox)_第1张图片

Bickel等人的研究报告得出结论说,女性倾向于适用于更具竞争力较低的学院的承认,即使在合格的申请者(如英语学院),而男性倾向于适用于竞争力较高的配学院(如工程学院)。

肾结石治疗

另一个例子来自一项真实的医学研究,比较了两种治疗肾结石的成功率下表显示了肾结石治疗的成功率和治疗的数量,包括大小肾结石的治疗,其中A治疗包括开放式手术,B治疗包括封闭式手术。括号中的数字表示成功案例数除以组的总规模。

【推荐系统->统计学】辛普森悖论(Simpson‘s paradox)_第2张图片

一个矛盾的结论是,疗法A在小结石上更有效,在大结石上也一样,而疗法B在同时考虑两种尺寸时似乎更有效。在这个例子中,导致悖论的“潜伏”变量(或混淆变量)是结石的大小,在考虑到它的影响之前,研究人员并不知道它的重要性。

哪种治疗方法更好,取决于哪种治疗的成功率(成功率/总成功率)更大。当考虑合并数据时,这两个比例之间的不平等的逆转产生了辛普森悖论,因为两个效应同时发生:

  1. 当隐藏变量被忽略时,组的大小是非常不同的。医生倾向于给结石较大的病例疗法A,而给结石较小的病例疗法B。因此,总量主要由3组和2组占主导地位,而不是两个小得多的组1和4。
  2. 隐藏的变量,结石的大小,对比例有很大的影响;也就是说,与治疗方法的选择相比,病例的严重程度对成功率的影响更大。因此,大结石的病人采用疗法A(组3) 比 小结石的病人采用疗法A(组1) 的疗效差;即便是后者采用较差的疗法B(组2),也比组3高。(个人理解为大结石比较难治疗,导致其成功率低)

基于这些影响,矛盾的结果被认为是由于结石的大小的影响了更好的治疗的效果(A)。简而言之,更少的有效治疗B似乎更有效,因为它是更频繁地应用于小结石情况下,更容易治疗。(个人理解:大结石难治疗,又主要用疗法A治疗,导致疗法A成功率低;小结石好治疗,主要用疗法B治疗,导致疗法B成功率高)

击球平均值

辛普森悖论的一个常见例子涉及职业棒球运动员的击球率。有可能一名球员在数年的时间里每年都比另一名球员有更高的击球率,但在所有这些年里都有更低的击球率。这种现象可能发生在不同年份的击球数量有很大差异的时候。数学家肯·罗斯(Ken Ross)利用两名棒球运动员德里克·基特(Derek Jeter)和大卫·贾丝蒂(David Justice)在1995年和1996年的击球率证明了这一点。

在这里插入图片描述

在1995年和1996年,贾丝蒂的击球率都比基特高。但是,如果把两个赛季加在一起,基特的击球率比贾丝蒂高。根据Ross的说法,这种现象每年都会在可能的玩家组合中出现一次。

向量的解释(重点)

辛普森悖论也可以用二维向量空间来说明。成功率 p q \frac{p}{q} qp(比如成功总数/尝试总数)可以用向量 A ⃗ = ( q , p ) \vec{A} = (q,p) A =(q,p)表示,斜率为 p q \frac{p}{q} qp。斜率越陡峭说明成功率更大(个人理解: p q \frac{p}{q} qp其实为正切 t a n α tan \alpha tanα,而 t a n tan tan在0~90度的时候是随着角度的增大而增大,当然了成功率不可能大于1)。

【推荐系统->统计学】辛普森悖论(Simpson‘s paradox)_第3张图片

如果两个成功率合并,根据平行四边形法则, ( q 1 , p 1 ) (q_1,p_1) (q1,p1) ( q 2 , p 2 ) (q_2,p_2) (q2,p2)合并结果就是 ( q 1 + q 2 , p 1 + p 2 ) (q_1+q_2, p_1+p_2) (q1+q2,p1+p2),斜率(正切tan)为 p 1 + p 2 q 1 + q 2 \frac{p_1+p_2}{q_1+q_2} q1+q2p1+p2

辛普森悖论表明,即使一个向量 L ⃗ 1 \vec{L}_1 L 1(橙色图)的斜率 小于 另一个向量 B ⃗ 1 \vec{B}_1 B 1(蓝色); L ⃗ 2 \vec{L}_2 L 2的斜率 小于 B ⃗ 2 \vec{B}_2 B 2,两个向量之和 L ⃗ 1 + L ⃗ 2 \vec{L}_1+\vec{L}_2 L 1+L 2的斜率 仍可能大于 B ⃗ 1 + B ⃗ 2 \vec{B}_1+\vec{B}_2 B 1+B 2的斜率,如图所示。

为了实现这种情况,其中一个橙色向量的斜率必须大于其中一个蓝色向量(这里是 L ⃗ 2 \vec{L}_2 L 2 B ⃗ 1 \vec{B}_1 B 1),这些向量通常比其他的向量长(个人理解: L ⃗ 2 \vec{L}_2 L 2 B ⃗ 1 \vec{B}_1 B 1 B ⃗ 2 \vec{B}_2 B 2 L ⃗ 1 \vec{L}_1 L 1长很多,取决定性作用),因此支配了整个比较。

【推荐系统->统计学】辛普森悖论(Simpson‘s paradox)_第4张图片

变量的相关性

辛普森的悖论也可能产生相关性,即两个变量看起来(比如说)彼此之间有正相关,但实际上它们有负相关,逆转是由“潜伏的”**混杂因子(统计学术语)**引起的。Berman et al.从经济学中给出了一个例子,其中一个数据集表明,总体需求与价格正相关(即价格上涨导致需求增加),这与预期相矛盾。分析表明,时间是混淆变量:价格和需求与时间的关系图显示了在不同时期的预料之中的负相关关系,然后如果简单地绘制需求与价格关系图而忽略时间的影响,则反转成正相关关系。

参考文献

  1. 数据分析之辛普森悖论
  2. Simpson’s paradox - Wikipedia

你可能感兴趣的:(推荐系统,统计学,概率论)