辛普森悖论

1、 什么是辛普森悖论

当组合在一起时,在多个组中观察到的趋势或关系消失或逆转。这就好比,我和小明一起考试,同样的科目,我的各科得分率都比小明要高,但是奇怪的是总分数没有他高。

举个带数据的例子

现在,我和詹姆斯比赛投篮,分别记二分球和三分球,然后计算我们各自的命中率
二分球

篮球 投出 命中 命中率
24654 14424 50.4%
詹姆斯 24537 12192 49.7%

三分球

篮球 投出 命中 命中率
5409 1860 34.4%
詹姆斯 1778 581 32.7%

从两个表来看,我的准确率都比詹姆斯要高,但是事实真是如此吗?
现在我们把所有投的球集中运算

篮球 投出 命中 命中率
30063 14284 47.5%
詹姆斯 26315 12773 48.5%

很明显,我的总命中率低于詹姆斯,但为什么我的二分和三分都高于詹姆斯,加起来却比他要低?

2、 是什么导致了辛普森悖论

在上面的两个例子中,我和小明考试的那个例子很明显,我和小明答过的题分数不一样,可能我只答了60分的题,得分率为90%,但小明答了100分的题,得分率为60%,这样一来我最终只有54分,而小明有60分。、

类似,我们可以观察到第二个例子中,我和詹姆斯的每种球投球总数是不太一样的,这正是出现差别的重要原因。

数据的分解(例如,将其拆分为子组)可能导致某些子组与其他子组相比具有不平衡的表示形式。这可能是由于变量之间的关系,或者仅仅是由于数据已被划分为子组的方式。
那如果我们把这个问题推广一下呢,有更多组的变量会影响最终总的成绩会怎么样?
显然,

3、 如何自行捏造一组辛普森数据

其实现实中就有很多辛普森悖论的例子,比如说赌博。
现在的赔率是1:3,底注为1块钱,赢了之后可以有3块,输了底注亏损。
A运气好,下注10把,赢了10把,胜率为100%。
B运气不如A,下注10把,赢了9把,胜率为90%,胜率比A低很多

现在的赔率加大到1:10,底注为1块钱,赢了之后可以有10块,输了底注亏损。
A运气依旧不错,下注100把,赢了85把,胜率为85%。
B胆子小不敢赌太多,下注5把,赢了4把,胜率为80%,胜率依旧比A低

但是我们观察总得赢钱胜率会发现A的胜率=(10+85)/(10+100)=0.863636,而B的胜率=(9+4)/(10+5)=0.866666,比A要高。

构造这组数的诀窍就在于:控制第一组的胜率、下注数目不差太多,而在第二组数时,调整基数(下注数目)。这样即使第二组A的胜率仍旧0高于B,但他输掉的场次数目已经远超B,而这些数据恰恰会影响到第一组并不明显的差距。

你可能感兴趣的:(数理统计学习,算法,数据结构)