背景
无法衡量就无法优化,对于互联网产品而言,不仅是推荐系统,整个app系统的更新迭代必然需要建立一套度衡量,来把控整个流程优化的方向,而ABtest系统就是一个很好的进行变量控制和优化方向选取的工具,循环:衡量-发现-迭代-验证
。所谓精细化迭代是一种建立在数据基础上的思维方式——用较少的成本获得较好的成果。无数据,不优化,线上分流实验是推荐算法优化的必由之路。并且ABtest不仅是推荐迭代的利器,它还可服务于所有需要足部完善的产品迭代。
在网络分析中,AB test(桶测试或分流测试)是一个随机实验,通常有两个变体,A和B。利用控制变量保持单一变量
的前提下,将A、B数据进行对比,得出实验结论。AB test是一种科学的利用数据证明方案可行性的手段,一般在网站中广泛使用。通过AB test系统对迭代方案进行实验,并结合数据进行分析,反向再验证和驱动方案,是一个发现问题,提出假设,印证猜想,不段优化的过程。合适的推荐方法是要经过不断地实验去验证,验证地过程也是在校验数据,从何优化推荐系统策略,最终提升用户新增和留存。
为什么需要AB test
为什么不前后进行实验比较,因为:同时期测试的AB test非常有必要的原因是不同时间的测试无法说明b比a好,因为通常时间
也是一个变量,比如电商的双十一的商品CTR(或者是CVR)会比平时明显增加。
什么是单一变量原则
在一个实验中,只允许一个量改变,其他的量均控制在相同条件
流量饥饿
在单一变量的原则下,当我们业务存在多层变量时,会产生笛卡尔,每个结果结果会对一个实验组,而且实验组这间是流量互斥的,所以当变量比较多时就会产生流量饥饿,即流量不够用了。
流量如何无偏置
这是流量分配最大的问题,也是最难的问题。同时只做一个实验时,这个问题不明显,但是要同时做多个实验,那么如何避免前面的实验给后面的实验带来影响,这个影响就是流量偏置, 意思是在前面实验的流量分配中,有一种潜在的因素在影响流量分配,这个潜在的因素不易被人察觉,潜在的因素如果会影响实验结果,那么处在这个实验后面获得流量的实验,就很难得到客观的结论。这个无偏置要求,也叫做“正交”。
分层正交
对与分层实验有个很重要的点就是每一层用完的流量进入下一层时,一定均匀的重新分配。图中的箭头展示的很清晰,第一层中每个实验的流量会重新分组进入到第二层中的每个试验中。所以整个流量有一个分散,合并,再分散的过程,保证第二层中的每个实验分配的流量雨露均沾
,这就是所谓的流量正交。
从上图可以看出,即使第1层的2号桶的实验结果比其他几个桶效果好很多,由于流量被离散化,这些效果被均匀分配到第2层。(第3层及后面层类同),这样虽然实验效果被带到了下一层,但是每个桶都得到了相同的影响,对于层内的桶与桶的对比来说,是没有影响的
。而我们分析实验数据,恰恰只会针对同一实验内部的基准桶和实验桶。
分层原则
通常来说有依赖关系的实验点必须划分在同一层,例如页面背景颜色和字体颜色必须在同一层,如果页面背景颜色和字体颜色都被设置成蓝色,那么我们就看不到页面上的字了),没有依赖关系的实验点可以划分在不同层,每个变量实验点只出现在一个层中,不会出现在多层中。
如果按钮颜色和背景颜色相同则不可读
实验(experiment)
是由零个或多个策略参数构成的,被用于改变传入请求处理方式的过程。
我们在实验平台定义一个试验(Exp)
后,例如“界面实验(UI Layer)”会分别为其设置三组对照的实验参数,这里我们可以叫实验组(Group)
,Red组、Blue组、Green组。
- 流量
即用户的访问,也是实验的样本来源。
layer:在layer里面包含一系列可以改变的参数。例如上面的实验可以分成2个layer,layer1对应实验1
,layer2对应实验2
。
基于多层实验模型的流量分桶原理,ab平台对其做了适当的简化。我们定义每层一个实验
,各层之间流量正交。每个实验受众,可以理解为一个域
。一个受众可以用于多个实验
。
论文翻译
http://www.uml.org.cn/jchgj/2015011311.asp
什么是AB-TEST
https://zhuanlan.zhihu.com/p/46837312
美团设计
https://tech.meituan.com/2019/11/28/advertising-performance-experiment-configuration-platform.html
谷歌是如何高效做AB实验的
https://blog.csdn.net/shangpairen/article/details/105232249
AB实验平台在贝壳找房的设计与实践
https://blog.csdn.net/GFJ0814/article/details/92422510
文读懂AB测试原理及样本量计算的Python实现
https://zhuanlan.zhihu.com/p/111756161
AB测试样本数量计算器
https://www.eyeofcloud.com/124.html