01 什么是辛普森悖论?
是英国统计学家E.H. 辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
网上很多都用大小胆结石,学院录取率来解释这个辛普森悖论。
比如:不同手术对胆结石的治愈率
介于胆结石不是人人都得过,
学院录取率不是每个学校都公开过,
所以大家用这些例子来理解这个悖论,有点不太直观。
02 解释辛普森悖论
下面,我们用一个比较直观的例子来了解一下。
保证你看了这个例子,一辈子都忘不了什么是辛普森悖论。
这个人认识吗?
这个人呢?
故事是这样的,
有个口红品牌推出了一个新品,公司想从他们里面挑一个代言人。
挑选代言人的方法很简单,就是谁带的了货,就谁当。
经过他们层层删选,最后选定了,口红一哥李佳琦和带货一姐薇娅来PK这个代言人。
那如何PK呢?
品牌选了某一天,让他们同时直播推广这只口红,谁的直播购买率高,谁就是口红代言人。
也就是看他们节目的人中,有百分之几的人购买了这只口红。购买率高的获胜。
经过四个小时的直播,
薇娅居然超过了口红一哥李佳琦3个百分点!
小助理知道了这个信息后,表示不服气,去你的大头鬼。
于是,小助理把品牌方搜集的数据,又做了一次详细的分析。
小助理说:谁说,我们的购买率低?!!!
我们的男观众比薇娅的男观众多了5%,
另外,女观众比薇娅的女观众多整整11%!!!
你看!李佳琦的女人就是不一样!!!
小助理刚要拿起微信和品牌方讲(撕)理(逼),又想了想,
不对啊,我们男,女观众都比薇娅的购买率要高,为什么总体要比薇娅少呢?
我是不是算错了啊?
几百万的口红我也算过,几百万的香水我也算过,我就不信我这次算不对!!!
小助理拿出计算器算了又算,
算的都对啊。
小助理陷入了迷思
……
03 这就是辛普森悖论
两组数据分组讨论和合并在一起后,会出现截然不同的答案。
04 辛普森悖论 - 数据背后的因果关系
小助理通过一个礼拜的线上学习,和查阅资料。
发现这次的男女比例和薇娅那组相差比较大。
为什么薇娅的男观众会多呢?
一调查,原来那天,薇娅在卖火箭
那些有钱的男人,连火箭的要买,还在乎给女朋友买个口红么。
所以我们可以发现,那天看薇娅直播的男观众不仅数量多,而且购买率也高。
这就是藏在辛普森悖论后面的因果关系。
05 我们直觉的缺陷
我们一直以为,总体好的话,细分一定也好。细分好的话,总体也一定好。
从李佳琦卖口红这个例子,我们可以看出,并不是这样的。
06 李佳琦小助理对辛普森悖论的理解
辛普森悖论很重要,因为它提醒我们,我们展示的数据并不是所有数据。
我们不能只满足于数字或图表,我们必须考虑数据生成过程 - 因果模型,对数据负责。
一旦我们理解了数据生成的机制,我们就可以寻找影响结果的其他因素,而图表不会告诉你这些。(就比如薇娅那天做了卖火箭直播,所以购买力强的男观众导致了薇娅口红购买力总体上涨)
学会思考因果关系并不是大多数人在学校里所教授的技能,但是这个技能在日常生活中,防止我们从数字中得出错误的结论至关重要。
完。