数据分析中的辛普森悖论

背景:最近做算法优化涉及到对某一个活动的消费指标进行拆解,做数据分析的过程中发现了一个问题,感觉这个问题可能会出现在很多场景之中,写一篇文章记录供大家参考。【出于隐私保护需要,相关指标都已经隐去,会提供必要的说明保证对图表的正常理解】

 

图1横轴是活动中推送的不同产品id,纵轴是每个产品id对应的转化率

图1 产品id对应的转化率

数据分析中的辛普森悖论_第1张图片

通常对于消费相关的指标,需要从各个维度进行拆解(用户,平台,渠道等),下面从用户分层维度对转化率进行拆解,看大小R的转化率,如图2所示。

图2 玩家分层后,产品id对应的转化率

数据分析中的辛普森悖论_第2张图片

为了方便分析,我们选取其中一个产品来分析(简称x),即图1和图2中红框部分对应的产品和转化率,但是图2给我们这样一个印象,就是规则组的x的转化率在各个用户分组上的表现好像和随机组没有太明显的差别,甚至直观看上去要优于随机组,这一点和图一中的数据是相悖的(因为图1产品x的整体转化率随机组明显优于规则组),原因是整体转化率会涉及到权重因子,即 Σ各个用户分组的转化率*各个用户分组占整体用户的比例 = 整体转化率 ,所以导致出现了图1和图2看似不一致的问题,下面引入权重因子,即各个用户分组占整体用户的比例之后再看看数据如何。

数据分析中的辛普森悖论_第3张图片

现在看起来数据正常了,产品x在规则组的表现是不如随机组的。

 

上面这个问题其实牵涉到一个有名的悖论-辛普森悖论,关于该该悖论的解释可以参考

http://www.woshipm.com/data-analysis/1061642.html

我对这个问题的理解简单一句话来说就是未引入权重因子时可能导致一些欺骗性的现象,因此在做数据分析的时候一定要对数据做出合理的拆解(比如常用的用户,渠道,平台等维度)才能得到正确的结论。

你可能感兴趣的:(数据分析)