需要考虑的问题:
1)ABtest是否置信
2)一组ABtest只需要多少样本就可以有显著性
3)怎么分配流量来进行多组ABtest计划,保证各组测试都能显著
1)中心极限定理和正态分布,z检验
中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布(具体推导参考大数定理、中心极限定理)。
在样本数量比较大情况下,可以采用z检验。(总体方差已知的情形用z检验,未知用t检验)
ABtest需要采用双样本对照的z检验公式。
2)H0、H1假设和显著性、置信区间、统计功效
现在假设有A、B两个组,我们无法确定A、B两个组的差异究竟是某种误差引起的,还是客观存在的。所以假定:
显著性 根据z检验算出p值,通常我们会用p值和0.05比较,如果p<0.05,我们就接受H0,认为AB没有显著差异。
置信区间 是用来对一个概率样本的总体参数进行区间估计的样本均值范围,它展现了这个均值范围包含总体参数的概率,这个概率称为置信水平。
双样本的均值差置信区间估算公式如下:
统计功效power是说拒绝零假设(H0)后接受正确的H1假设概率。直观上说,AB即使有差异,也不一定能被你观测出来,必须保证一定的条件(比如样本要充足)才能使你能观测出统计量之间的差异;否则,结果也是不置信的。
3)版本替代决策
做完ABtest后,应该用上图中的置信区间,和期望收益比较,做版本替代决策。
比如新版本的期望收益是2%,而检验后置信区间是[16%,20%],那我们有理由替换旧版本。
统计功效计算公式:
一个ABtest计划需要多大样本量?
假设双样本都有相同的标准差并已有估计值,知道了n1,以及双样本的均值差;再假设power=0.8,a=0.05,那么我们可以根据公式推导出最低样本量n2:
如果一组ABtest效果显著有效,也不见得就能说明ABtest是可信的。
eg.某网站优化了商品详情页,现在新旧两个版本同时运行,新版页面覆盖了10%的用户,旧版覆盖90%的用户。现在需要了解,新版页面是否能够提高商品详情页到支付页的转化率,并决定是否要覆盖旧版,你能为决策提供哪些信息,需要收集哪些指标,给出统计方法及过程。
使用A/B测试模型,分析两个版本在一段时间期限内,详情页面到支付页面的转化率变化,并计算转化率变化后引起的的GMV变化。
可选择的决策:①确定发布新版本;②调整分流比例继续测试;③优化迭代方案重新开发。
要统计的指标:期限内新、旧版本商品详情页到支付页转化率 ,支付金额。
要衡量的指标:转化率变化 t 在是可接受的置信区间内是否显著,同时参考收益提升率。
指标计算方法:转化率=从某详情页到支付页用户数/浏览该商品详情页用户数(取日平均和标准差)
支付金额=从某详情页到支付页到支付成功路径用户的本次支付金额(取日平均)
用统计学模型:T检验模型
采用决策①的情况:本次页面改进在显著性水平内,证明了‘转化率提升的假设’。并且收益提升率达到预期水平。
采用决策②的情况:本次页面改进在显著性水平内,无法证明‘转化率提升的假设’。分析原因可能是新版本样本空间不足。
采用决策③的情况:本次页面改进在显著性水平内,证明了‘转化率提升的假设’。但是收益提升率没有达到预期水平。