辛普森悖论

辛普森悖论是一个很有趣的统计学现象。对于研究某个事物的性质时,进行分组研究,分组的结果和总计的结果会产生截然相反的结论。这违背人类直觉,但从逻辑上却无可挑剔。

当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方,这种现象被称为辛普森悖论

看个例子,现在有两个餐厅,Carlo’s餐厅和Sophia餐厅,你打算比较一下两个餐厅到底哪个更好。接下来拿出APP看推荐率,发现男性用户的推荐率和女性用户的推荐率都是Carlo’s餐厅高,那么是否意味着Carlo’s餐厅更好呢?下面看一下表格:

\ Sophia餐厅推荐率(推荐数/总数) Carlo’s餐厅推荐率(推荐数/总数)
男性 50/150=30% 180/360=50%
女性 200/250=80% 36/40=90%
总数 250/400=62.5% 216/400=54%

上面的表格看起来很清楚,如果分男女组来看,Carlo’s餐厅看起来更好,但是把数据合并后,Sophia餐厅才是最优。这种现象虽然违反人类直觉,但是将其列出却很容易解释,Carlo’s餐厅推荐率高达90%的组,样本只有40个,Sophia餐厅推荐率80%的组,样本却有200个,在样本数量上占了极大优势,对拉高整体的推荐率影响更大。

从数学上来看,这个逻辑更加简单:

a b > c d , e f > g h \frac{a}{b} > \frac{c}{d}, \frac{e}{f} > \frac{g}{h} ba>dc,fe>hg

这个条件不等价于:

a + e b + f > c + g d + h \frac{a + e}{b + f} > \frac{c + g}{d + h} b+fa+e>d+hc+g

辛普森悖论提醒着我们,我们看到的数据,并不一定是数据的本来面目,部分或者片面的数据,并不一定能够反映实际的情况,我们需要考虑数据生成的过程,考虑因果模型,思考数据组成部分的影响因素,完全相信片面的数据可能会导致得出完全不同的结论。

无论是做模型,做业务,都不能只满足眼前的东西,对事物和数据都要进行理性的思考,深入挖掘。

思考

辛普森悖论让我想起我们平时逛淘宝或者点外卖时的策略,很多人都是选评分高的,但评分高的并不一定是最好的,有可能他购买人数不多,但刷了很多好评。但是很多经验丰富的淘宝高手,会看购买人数,看价格,看好评,看差评,各种对比,最后选择某一家店,这实际是使用了多模型的策略,相当于做了个整体的评估,最后得到了哪个店最好的结论。

另一个点,是我们对自己的看法和事物的认知,一定程度上也局限于“分组”,举个例子,很多同学有可能有这种经历,上初中的时候考试名次很好,但是上了高中,考试名次就很低,于是觉得自己能力不够,水平有限,自信心被打击……但换一个角度看,有可能你的实力并没有降低,而是因为你初中在一个普通学校,上了个重点高中,这里都是成绩好的同学,但是放到整个市或省,你的名次依然是很高的。我还记得当年在我们学校排名10几名,但是和某重点高中的同学聊过后才知道,我这成绩只能在他们那排到2,3百名。又或者有些人觉得本科学历不值钱,一抓一大把,年薪百万到处都是,这种认知很有可能都是被辛普森悖论所带偏。在现实生活中,如何能够正确了解这个世界,不仅需要知识,也需要智慧,哎,努力吧,突破自我认知的局限,或许就能打开新的一片天地。

你可能感兴趣的:(Other)