对于A/Btest结果的另一种表述

在进行Google Play商品详情实验时,我们一定都会注意到谷歌后台对于测试结果的展示形式:

一次不太成功的商品详情实验

这和我们平时对客户端所做的A/B测试看起来不太一样。通常我们对于AB测试的结果,都会说,B版本相比A版本提高了多少个百分点。但在谷歌后台进行的这项AB测试,我们并不能直接从图中得到,版本C要比原来版本转化率提高了多少,而是给出了一段区间。同时提供给了我们一个有点陌生的指标:90%置信区间。

从数学上来讲,90%置信区间,是这样定义的:

置信区间是指由样本统计量所构造的总体参数的估计区间。
90%置信区间意义在于,有90%的概率,真值会落在这个区间内。

翻译到这个场景中,就是,有90%的可能性,实际效果或落在“比原来差6.2%”和比“原来好11%”之间。当然也不用太过担心,采用了第三组结果反而更差。这个概率分布是正态的,实际效果更大概率地会落在均值(+2.4%)附近。

当然如果按照我们平时对于AB测试结果的描述,我们通常只会说,版本C比原版转化率高2.4%。这样对比来看,谷歌后台的结果描述更为科学。置信区间的描述结果,也和我们实际经验相符合。毕竟转化效果不可能每天都是+2.4%,有可能超过2.4,有时还可能原版低一点。

如果把置信区间的方式,用在我们平时的AB测试上,会有怎样的结果呢?下面以现在手上项目之前做过的,对于营收功能X对于用户留存影响的AB测试做一个例子:

样本范围:某渠道买量用户
A组用户:不做特殊处理,正常默认开启功能X;
B组用户:默认关闭功能X,但用户能在设置中发现这个功能的存在;
C组用户:不仅默认关闭功能X,而且隐藏了设置X的开关,让用户完全感受不到功能X的存在;

按照原来的思路,这次测试的结果图表是这样的:

针对功能X,某渠道用户留存情况

因为该渠道当时刚刚起量,三种类型的用户都不算多,但好在三条留存曲线变化比较规则平稳。因此得到初步结论:
(1)功能X的自动开启,对留存影响很大。相比于最为”纯净“的C组,留存降低至少15%。
(2)即使默认关闭功能X,但是用户仍然可以发现有X这项功能,也会对留存产生10%左右的影响,选项关闭但可见,对留存影响仍不可小看。

接下来我们分别计算这三组数据的置信区间。在计算前,需要先约定一个基础假设,那就是:我们可以将次日留存情况视作一种二项式分布,对每一个样本,都存在当天卸载(二项式分布中的0)和当天未卸载(二项式分布中的1)这两种情况,用户选择的结果,与日期无关。这样我们就可以将四天的用户数看作一个容量为n的样本库。
对于二项式分布的置信区间的计算公式如下:

其中p为二项式分布的均值,n为样本容量,1.645则是90%置信度时正态分布的临界值
根据公式计算出的得到的置信区间如下:

根据这个置信区间数值,转化成类似Google Play后台看到的图表形式,我们这次的AB实验结果变成了这样:

从这张图表中,就可以对之前给出的一些结论进行一些修正:
(1)默认开启X对留存影响很大,这个结论依然成立。相比与完全隐藏功能X,留存至少降低12%。
(2)默认关闭X时,X的设置开关是否可见,对留存的影响,没有我们之前结论中的那么大。虽然均值的差距在10%左右,但两组留存区间有一定程度的重叠。如果只说“关闭并隐藏”会比“仅关闭”高10%的留存是不太准确的。

由此可见,谷歌后台对于AB结果的表述,提供给了我们一个新的分析数据的视角。特别实在样本量较小的时候,能让我们对估算误差有一个科学的判断标准。

你可能感兴趣的:(对于A/Btest结果的另一种表述)