4个参数搞定ABTEST样本量的最优选择

理论上样本量越大,越能反应实际情况,减少误差。但实际工作场景中,样本量同样不能过大,有两点原因
流量不足:小公司线上流量较小,产品开发过程中需要多个实验测试,并且每个实验的样本尽量不重叠,如果拿出来大部分做实验,会拖慢开发进度;
试错有成本:如果某个实验选择了50%的样本,而这个实验组的转化率降低了非常多,对收入有风险,试错成本高。
结论:尽量选择最小可靠性样本。
怎样计算需要多少样本

可直接使用网上计算器:样本量计算器
4个参数搞定ABTEST样本量的最优选择_第1张图片
需要输入4个参数:

Statistical power:统计功效,实验中最想得到的结果。
Significance level:显著水平
Baseline rate:实验前的历史数据
Minimum detectable effect:最小可探测效应
要搞清楚Statistical power和Significance level

需要先来了解另一个概念:ground truth。
ground truth:假设我们一一调研用户,问他们会选择点击哪个按钮,并把数据记录下来,这样得到的结果就是ground truth。

那么ground truth对应的就是我们的预测值,把预测值与实际值做对比,会出现如下四种情况:
在这里插入图片描述
第一种情况:当真实数据没有差异,而预测有差异时,就是预测错误,我们说他是冤枉好人。这种情况会导致最终的实验结果出问题:
本身没有提升,错误的认为有提升,浪费了公司资源,并且让产生这个想法的人得到奖励;
非商业情况下:会把好人抓进监狱;
所以,第一类错误非常严重,要尽量避免,我们需要给这种错误出现的频率设置一个最大值,也就是Significance Level (α)。一般情况下永远不能超过5%

第二种情况:实验结果正常。

第三种情况:实际值有差异,实验结果也有差异,实际上这种情况就是我们需要的,这个概率就是判断正确的概率,叫做Statistical Power。如果power过低,也就是说本来有效果的,而实验却得出来没有效果,就会导致实验白做,所以power越高越好。

第四种情况:就是刚才我们所说的,本来有差异,实验却展示出来没有差异。这种用β来表示,当确定了事实是有差异的情况下:power = 1 - β
所以,这两个指标:
Significance level(α):越小越好,一般不大于5%;
Statistical power(1-β):越大越好,一般不小于80%,也就是说β需要小于20%;
从两个错误的容忍度来看,β是要比α大很多的,也就是说,宁可错杀一个好产品,也不能放过一个坏产品。

Baseline rate
假设,我们需要测试普通人群和精选人群的点击率差异,那么普通人群的历史点击率就是baseline rate。
当baseline rate越大或者越小时,实验越能监测出差别,比如说历史点击率是98%,新的人群略微有几个人不点击,这个点击率就会下降很大(power变大),当power不变时,只需要较少的样本量;

Minimum detectable effect
从字面意思来理解为:最小可探测效应。
也就是说,两个人群的点击率,最小出现多少偏差,才能监测出有差异。理论上来说,监测更大的差异更为容易,需要的样本量更少,监测更小差异,更难,需要的样本量也就更大。举个例子,一个人移动了1米你一眼就能发觉,一个人只移动了1厘米,你就需要花更多的时间检查了。
这个参数需要和业务方一起确定,比如我们把这个指标设置成10%,如果精选人群的点击率真的能提高10%,我们希望能够检测出来。
确定好这4个参数之后,利用网站自动计算就很方便了。

你可能感兴趣的:(笔记)