数据分析——AB实验

( 一 ) AB实验概念

AB实验通俗讲就是在线上可以切出一部分用户(降低风险),完全随机的分成两组或多组(确保人群一致),一组保持现有的方案叫对照组,另外一组使用改进的方案叫实验组,使用统计的方法对两组之间指标差异进行分析,评估是否符合预期的一种方法。

( 二 ) AB实验中你必须知道的

1. 原理:

AB实验的基本原理是“控制变量法”。

AB实验利用控制变量法的思想,保证各个产品方案针对同质人群(特征分布相同)、同一时间进行实验,确保除方案变量外其他变量一致,从而判断指标差异是方案不同造成的,从而选择优胜版本全流量上线,实现数据增长。

假设检验的基本思想是“小概率事件”。

假设检验是用来判断样本与样本,样本与总体之间的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有Z检验、T检验、卡方检验、F检验等。

2. 概念:

假设检验:先对总体的参数提出某种假设,然后利用样本的信息判断假设是否成立的过程。

显著性水平:表示为α,是一个概率值,原假设为真时,拒绝原假设的概率,常取值为0.05、0.01、0.10。

置信区间:一般我们用中括号[a,b]表示样本估计总体平均值误差范围的区间。a、b的具体数值取决于你对于"该区间包含总体均值"这一结果的可信程度,因此[a,b]被称为置信区间。

置信度/置信水平:表示为1-α,一般来说,选定某一个置信区间,我们的目的是为了让"ab之间包含总体平均值"的结果有一特定的概率,这个概率就是所谓的置信水平。表明了区间估计的可靠性。例如我们最常用的95%置信水平,就是说做100次抽样,有95次的置信区间包含了总体均值。

(如何通俗地解释置信区间和置信水平)

p值:是一个概率值,如果原假设为真,p值是抽样分布中大于或小于样本统计量的概率。一般通过查t分布表得出。左检验时,p值为曲线上方小于等于检验统计量部分的面积,右检验时,p值为曲线上方大于等于检验统计量部分的面积。

p与α的关系:p<α说明小概率事件发生了,则拒绝H0,否则接受H0。

原假设与备择假设:待检验的假设又叫原假设(零假设),一般表示为H0,原假设一般表示两者没有显著性差异。与原假设进行对比的叫备择假设,表示为H1。一般在比较的时候,主要有等于、大于、小于。

检验统计量:即计算检验的统计量。根据给定的显著性水平,查表得出相应的临界值。再将检验统计量的值与该显著性水平的临界值进行比较,得出是否拒绝原假设的结论。

单双测检验:当假设关键词有不得少于/低于的时候用左侧检验,比如灯泡的使用寿命不得少于/低于700小时时;当假设关键词有不得多于/高于的时候用右侧检验,比如次品率不得多于/高于5%时。双侧检验指按分布两端计算显著性水平概率的检验,应用于理论上不能确定两个总体一个一定比另一个大或小的假设检验。一般假设检验写作H0:μ1=μ2。
数据分析——AB实验_第1张图片
数据分析——AB实验_第2张图片

检验结果:单侧,若p值>α,不拒绝H0,若p值<α,拒绝H0;双侧,若p值>1/2α,不拒绝H0,若p值<1/2α,拒绝H0。

3. 两类错误

在假设检验过程中,我们可能会犯两种错误,第一次类错误(弃真)和第二类错误(取伪)。

弃真:当假设H0正确时,小概率事件也有可能发生,此时我们会拒绝假设H0。

取伪:当假设H0不正确,但一次抽样检验未发生不合理结果时,这时我们会接受H0。

在统计学中,我们用显著性水平α来衡量犯第一类错误的概率,统计功效β来衡量犯第二类错误的概率

理论上,自然希望犯这两类错误的概率都很小。当样本容量n固定时,α、β不能同时都小,即α变小时,β就变大;而β变小时,α就变大。一般只有当样本容量n增大时,才有可能使两者变小。

在实际应用中,一般原则是:控制犯第一类错误的概率,即给定α,然后通过增大样本容量n来减小β。这种着重对第一类错误的概率α加以控制的假设检验称为显著性检验。

4. 统计功效

统计功效(statistical power)是指, 在假设检验中, 拒绝原假设后, 接受正确的替换假设的概率。我们知道,在假设检验中有α错误和β错误。α错误是弃真错误, β错误是取伪错误。取伪错误是指, 原假设为假,样本观测值没有落在拒绝域中,从而接受原假设的概率,即在原假设为假的情况下接受原假设的概率。由此可知, 统计功效等于1-β。

统计功效在AB实验的应用

一般来说当显著性水平在5%以下,统计功效在80%(或90%)以上,即β在0.2(或0.1)以下时,我们会认为实验结论是相对可信的。

但在AB实验中,我们经常会遇到这样的场景,实验组相对对照组在指标上有一定的提高,但差距是不显著的,这个时候作为分析师我们可能需要做的一个决策是继续扩大流量让实验再开一段时间,还是把实验停掉换个思路再开启新的实验?

在这个场景下,统计功效就可以辅助我们去做这个决策,如果经过测算统计功效已经达到了80%以上,即已经有80%的把握能检验出策略实际上有效的情况下提升仍然不显著,那么可能是策略确实没有用,需要再尝试一个新的策略,但如果发现统计功效不足80%,接下来我们可能需要考虑再把实验开久一些或者再扩大一些流量,观察是否有置信的可能。

(三)AB实验过程

1.提出猜想,设定原假设H0与备择假设H1。

H0:样本与总体或样本与样本间的差异是由抽样误差引起的
H1:样本与总体或样本与样本间存在本质差异

2.计算样本量。

1)样本量在线计算工具-卡方检验
2)根据中心极限定理公式推导出样本量计算公式
数据分析——AB实验_第3张图片
由于指标可以分为将绝对值指标和相对值指标。对应的,我们在计算绝对值指标和相对值指标时,标准差的计算方式也会不同。具体如下:
数据分析——AB实验_第4张图片
案例1-相对值指标:
某产品点击率1.5%,波动范围[1.0%,2.0%],优化了该功能后,需要AB测试计算样本量
P:1.5%,p:2.0%(由于波动范围是[1.0%,2.0%],所以至少是2.0%
总样本量 = 16 * (1.5%(1-1.5%)+2.0%(1-2.0%))/ (2.0%-1.5%)^2=22000
案例2-绝对值指标:
某产品购买金额标准差是25,优化了该功能后,预估至少有5元的绝对提升,需要AB测试计算样本量
σ=25,Δ=5
总样本量 = 16 * 25252/5*5=800

3. 构造统计量,根据样本计算相关数值。

由样本观察值按相应的公式计算出统计量的大小,如X2值、t值等。

4. 确定显著性水平,进行数据检验。

根据资料的类型和特点,可分别选用z/u检验、t检验、f检验、卡方检验等。
在这里插入图片描述
确定p值。根据统计量的大小及其分布确定检验假设成立的可能性p的大小, p值的大小一般通过查t分布表得出。

5. 得出结论。

若p>α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;
如果p≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。

( 四 )做ABtest时需要考虑的问题

1. 人群是否同质

设计合理的分流算法,确保分流到每个方案的都是同一特征分布的人群是AB实验结论可信的前提。

2. 实验是否同时

进行对比的各个实验版本一定要同时开启实验,实验过程中不能随意修改每个版本的流量,否则也会产生一些问题。

3. 是否需要AA实验

AA实验指的是实验中的各个方案都是一致的,目的是为了测试埋点、分流、实验统计的正确性,增加AB实验的实验结论可信度。

设命题1:如果实验的埋点、分流和统计都没有问题,那么AA实验中各个方案的数据表现一定一致。
则逆否命题2:如果AA实验中各个方案的数据表现存在显著差异,则实验的埋点、分流和统计至少一项有问题。

严格意义上讲AA实验的通过并不能证明上述三项(埋点、分流、统计)绝对没有问题,但是AA实验不通过一定能证明上述三项至少一项存在问题。

4. 实验结果是否反转

假如一个实验在线上第一天,方案A比方案B效果好,但并不代表第二天、第三天仍是这个结果。用户进入到新方案中,可能是因为好奇而表现的更加活跃,但随着时间推移,逐渐趋于冷静,数据可能回到本该有的水平,如果过早容易得出错误的结论。

另外一方面,如果实验样本量太少,实验结果的随机性也会比较强,随着实验天数增加,结果也可能出现反转。

参考链接:

数据应用系列(1)-ab测试

实例推荐:

推荐算法改版前的AB测试 实验设计

python独立双样本t检验: AB测试

数据分析|如何做一个ABtest测验

应用学习:

A/B实验设计——样本量选择

什么是 A/B 测试?

你可能感兴趣的:(数据分析,数据分析,统计学)