【因果推断与机器学习】带入坑——之辛普森悖论

@[因果推断与机器学习](Why you might Care )

Simpson’s Paradox

考虑一个纯粹假设的未来,那里有一种被称为COVID-27的新疾病在人类中普遍存在。在这个纯粹假设的未来中,已经开发了两种治疗方法: 治疗A和治疗B。治疗B比治疗A价格更贵,因此当前接受治疗A与治疗B的那些人的划分大致为73%/27%。在一个只关心尽量减少生命损失的国家,你负责选择你的国家将专门使用哪种治疗方法。

你有死于 COVID-27 的人的百分比数据,考虑到他们被分配的治疗,以及他们在决定治疗时的状况。他们的病情是一个二元变量:轻度或重度。在该数据中,接受 A 的人中有 16% 死亡,而接受 B 的人中有 19% 死亡。但是,当我们将病情较轻的人与病情严重的人分开检查时,数字的顺序相反。在轻度亚群中,接受 A 的人中有 15% 死亡,而接受 B 的人中有 10% 死亡。在重症亚群中,接受 A 的人中有 30% 死亡,而接受 B 的人中有 20% 死亡。我们在表 1.1 中描述了这些百分比和相应的计数。

Treatment Mild Severe Total
A 15%
(210/1400)
30%
(30/100)
16%
(2240/1500)
B 10%
(5/50)
20%
(100/500)
19%
(105/550)

表1.1: COVID-27数据中的辛普森悖论百分比表示每组的死亡率。越低越好。括号中的数字是相应的计数。这种明显的悖论源于这样的解释,即在检查整个人群时,治疗A看起来更好,但是在所有亚群中,治疗B看起来更好。

明显的悖论源于这样一个事实,在表 1.1 中,“Total”列可以解释为我们应该更喜欢治疗 A,而“轻度”和“严重”列都可以解释为我们应该更喜欢治疗治疗B.1 事实上,答案是,如果我们知道某人的病情,我们应该给他治疗B,如果我们不知道他的病情,我们应该给他治疗A。开个玩笑……那不任何意义。所以说真的,你应该为你的国家选择什么样的治疗方法?
根据数据的因果结构,治疗A或治疗B可能是正确的答案。换句话说,因果关系对于解决辛普森悖论至关重要。现在,我们只给出什么时候你应该更喜欢治疗A和什么时候你应该更喜欢治疗B的直觉。

(找到辛普森悖论的一个关键因素是人员分配给群体的不均匀性。接受治疗A的1500人中有1400患有轻度疾病,而接受治疗B的550人中有500患有严重疾病。由于病情较轻的人死亡的可能性较小,这意味着接受A治疗的人的总死亡率低于轻度和重度疾病在他们之间平均分配的情况。相反的偏差对于治疗B是正确的。)

情景一
【因果推断与机器学习】带入坑——之辛普森悖论_第1张图片
如果身体健康条件 C 是治疗 T 的原因(图 1.1),治疗 B 在降低死亡率 Y 方面更有效。例如,医生决定对大多数病情较轻的人使用治疗方式A进行治疗。而且他们省去了更贵的治疗方式B对于那些重症患者。因为病情严重会导致一个人更有可能死亡(图 1.1 中的 C->Y)并导致一个人更有可能接受治疗 B(图 1.1 中的 C ->T ),这会导致治疗方式B被更容易的和高死亡率联系起来。换句话说,治疗 B 与较高的死亡率相关,仅仅是因为“身体健康情况”是“治疗方式”和“死亡率”的共同原因。在这里,“身体健康状态”混淆了“治疗方式”和“死亡率”,为了纠正这种混杂因素,我们必须检查具有相同条件的患者之间的 T 和 Y 的关系。这意味着更好的治疗方式是在每个亚群中产生较低死亡率的治疗方法(表 1.1 中的“轻度”和“重度”列):也就是 治疗 B。

【因果推断与机器学习】带入坑——之辛普森悖论_第2张图片

情景2: 如果治疗T的处方是身体健康状态C的原因,治疗A更有效。一个示例场景是,治疗B非常稀缺,需要患者在接受治疗之前在接受治疗前等待很长时间。治疗A不存在这个问题。由于一名新冠肺炎患者的病情随着时间的推移而恶化,治疗B的处方实际上导致病情较轻的患者发展为病情严重的患者,导致更高的死亡率。因此,即使治疗B比治疗A更有效(沿T→γ) ,但是治疗B的治疗方式导致更坏的身体健康条件(沿T的负面影响→C→γ) 总的来说,治疗B的效果较差。注:由于治疗B更昂贵,治疗B以0.27概率开具处方,而治疗A以0.73概率开具处方;重要的是,在这种情况下,治疗处方与病情无关。

总而言之,更有效的处理完全取决于问题的因果结构。在方案1中,其中 C C C T T T 的原因 (图1.1),治疗B更有效。在方案2中,其中 T T T C C C 的原因 (图1.2),治疗A更有效。没有因果关系,辛普森悖论就无法解决。有了因果关系,它根本不是一个悖论。

你可能感兴趣的:(机器学习,人工智能,数据挖掘)