李佳琦的小助理教你辛普森悖论

01 什么是辛普森悖论?

是英国统计学家E.H. 辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

网上很多都用大小胆结石,学院录取率来解释这个辛普森悖论。

比如:不同手术对胆结石的治愈率

image

介于胆结石不是人人都得过,

学院录取率不是每个学校都公开过,

所以大家用这些例子来理解这个悖论,有点不太直观。

02 解释辛普森悖论

下面,我们用一个比较直观的例子来了解一下。

保证你看了这个例子,一辈子都忘不了什么是辛普森悖论。

这个人认识吗?

image

这个人呢?

image

故事是这样的,

有个口红品牌推出了一个新品,公司想从他们里面挑一个代言人。

挑选代言人的方法很简单,就是谁带的了货,就谁当。

经过他们层层删选,最后选定了,口红一哥李佳琦和带货一姐薇娅来PK这个代言人。

image

那如何PK呢?

品牌选了某一天,让他们同时直播推广这只口红,谁的直播购买率高,谁就是口红代言人。

也就是看他们节目的人中,有百分之几的人购买了这只口红。购买率高的获胜。

image

经过四个小时的直播,

薇娅居然超过了口红一哥李佳琦3个百分点!

image

小助理知道了这个信息后,表示不服气,去你的大头鬼。

image

于是,小助理把品牌方搜集的数据,又做了一次详细的分析。

image

小助理说:谁说,我们的购买率低?!!!

我们的男观众比薇娅的男观众多了5%,

另外,女观众比薇娅的女观众多整整11%!!!

你看!李佳琦的女人就是不一样!!!

小助理刚要拿起微信和品牌方讲(撕)理(逼),又想了想,

不对啊,我们男,女观众都比薇娅的购买率要高,为什么总体要比薇娅少呢?

我是不是算错了啊?

几百万的口红我也算过,几百万的香水我也算过,我就不信我这次算不对!!!

小助理拿出计算器算了又算,

image

算的都对啊。

小助理陷入了迷思

……

03 这就是辛普森悖论

两组数据分组讨论和合并在一起后,会出现截然不同的答案。

04 辛普森悖论 - 数据背后的因果关系

小助理通过一个礼拜的线上学习,和查阅资料。

发现这次的男女比例和薇娅那组相差比较大。

image

为什么薇娅的男观众会多呢?

一调查,原来那天,薇娅在卖火箭

image

那些有钱的男人,连火箭的要买,还在乎给女朋友买个口红么。

所以我们可以发现,那天看薇娅直播的男观众不仅数量多,而且购买率也高。

这就是藏在辛普森悖论后面的因果关系。

05 我们直觉的缺陷

我们一直以为,总体好的话,细分一定也好。细分好的话,总体也一定好。

从李佳琦卖口红这个例子,我们可以看出,并不是这样的。

06 李佳琦小助理对辛普森悖论的理解

辛普森悖论很重要,因为它提醒我们,我们展示的数据并不是所有数据。

我们不能只满足于数字或图表,我们必须考虑数据生成过程 - 因果模型,对数据负责。

一旦我们理解了数据生成的机制,我们就可以寻找影响结果的其他因素,而图表不会告诉你这些。(就比如薇娅那天做了卖火箭直播,所以购买力强的男观众导致了薇娅口红购买力总体上涨)

学会思考因果关系并不是大多数人在学校里所教授的技能,但是这个技能在日常生活中,防止我们从数字中得出错误的结论至关重要。

完。

你可能感兴趣的:(李佳琦的小助理教你辛普森悖论)