Adwords和仓鼠A/B测试中的统计方法

这篇文章主要讨论A/B测试中,为了使结果具体有统计意义,需要进行多少次实验。

比如说,Adwords中两种不同的的标题,可以看做不同的变量。32次点击的A("Code Review Tools")和19次点击的B("Tools for Code Review"),得出这样的结果以后,能否确认A比较好?或者说,需要进行更多次的实验才能够确定?

一直进行测试以求得到较好结果,会浪费大量时间;如果不进行足够的测试,把当前结果作为最终评定标准,则可能会得出错误的假设。

问题的核心是,能不能找到一种统计方法来表明测试结果有明显的“差异”

在仓鼠的实验中,仓鼠选择有机食品的次数是8次,选择常规食品的次数是4次。如果得出仓鼠更喜欢有机食品的结论,就错了。因为实验次数较少,不能快速得出这样的结论。

正如人们认为乘坐飞机比乘坐汽车危险一样,事实上,乘坐汽车出事故的概率是乘坐飞机的60倍。

这里介绍了一种验证A/B测试是否有统计意义上的差异。(以仓鼠和Adwords实验为例)

1. N表示为实验的次数
仓鼠实验总次数:8+4=12
Adword实验总次数:32+19=51

2. D表示为获胜者与失败者之间差异的一半
仓鼠实验D值为:(8-4)/2=2
Adwords实验D值为:(32-19)/2=6.5

3. 如果D2大于N,则认为有统计意义,差异明显
仓鼠实验D2=4,小于12,无统计意义,差异不大
Adword实验D2=42.25,小于51,无统计意义,差异不大

如果N值比较小,经过很多测试也很难具有统计意义


上述公式的推导过程如下:

零假设是A/B测试的结果是独立的,这里采用皮尔森卡方检验。其中,m表示实验的结果数,Oi表示观察值,Ei表示期望值。则:


在简单的A/B测试中,m=2,对于50/50的随机过程,期望值Ei=n/2(n=O1+O2).假定A=O1是两者中较大的那组,B则相反。则公式如下:

因为A+B=n,所以A与n/2和B与n/2的平方差相等,令D=A-n/2,则公式变为如下:

在上述例子中,自由度为1,根据卡方分布表,95%的置信区间X2大于3.8,99%的置信区间X2大于6.6,在上述例子中,作者选取4作为阈值,公式如下:

注:文章非原创整理自:Easy statistics for AdWords A/B testing, and hamsters

你可能感兴趣的:(Adwords和仓鼠A/B测试中的统计方法)