ABtest实验细节整理

目录

        • 1.基本概念
        • 2.ABtest流程
        • 3.ABtest样本量计算(假设检验)
            • 3.1 对于点击率,转化率等指标的样本量估计
            • 3.2 对于时长等指标的样本量估计
        • 4.ABtest显著性检验(假设检验)
        • 5.注意
            • 5.1 新奇效应
            • 5.2 灰度发布
            • 5.3 早鸟用户
            • 5.4 分组信息控制产品功能
            • 5.5 正交性实验
        • 6.参考资料

1.基本概念

ABtest是一种在线评估方法,为了实现同一个目标而制定的两个方案,一部分用户使用A方案,一部分用户使用B方案,记录下两部分用户的反馈情况,然后根据相应的评估指标确认哪种方案更好。

2.ABtest流程

ABtest实验细节整理_第1张图片

3.ABtest样本量计算(假设检验)

3.1 对于点击率,转化率等指标的样本量估计

对于点击率,转化率等指标的样本量估计使用Z检验进行估计,统计学里有最小样本量计算的公式,公式如下:
在这里插入图片描述其中n是每组所需样本量,因为A/B测试一般至少2组,所以实验所需样本量为2n;α和β分别称为第一类错误概率和第二类错误概率,一般分别取0.05和0.2;Z为正态分布的分位数函数;Δ为两组数值的差异,如点击率1%到1.5%,那么Δ就是0.5%;σ为标准差,是数值波动性的衡量,σ越大表示数值波动越厉害
参考计算工具:
样本量计算器
ABtest实验细节整理_第2张图片
excel计算过程
ABtest实验细节整理_第3张图片

3.2 对于时长等指标的样本量估计

对于预期提升的指标是人均时长、人均访问次数等,需要运用 t 检验反算,t检验用于样本含量较小,总体标准差σ未知的正态分布的估计情况
ABtest实验细节整理_第4张图片

4.ABtest显著性检验(假设检验)

将方案分为A方案和B方案,将原假设和被假设假设如下,并根据中心极限定理,当数据量足够时,总体参数的抽样分布是趋向于正态分布的
在这里插入图片描述
构建检验统计量
在这里插入图片描述
给定显著性水平为Zt,当Z>Zt,拒绝原假设,认为B方案带来的方案增益有效,否则认为B方案带来的增益无效

各类假设检验的使用情况:

  • Z检验:又称U检验,样本量较大的情况
  • t检验:又称student t检验,样本量较小的情况
  • 卡方检验:又称X2检验,检验两个变量之间有没有关系
  • F检验法:检验两个正态随机变量的总体方差是否相等

5.注意

5.1 新奇效应

在实验上线前期,用户因为新鲜感,效果可能都不错,因此在做评估的时候,需要观测指标到稳定态后,再做评估。

5.2 灰度发布

与 ABTest 一样,灰度发布也是圈出来一部分流量进行新功能的线上验证,验证基本能力没有问题之后再逐渐扩大覆盖面,支持扩展到全流量,灰度发布本身也有很多种机制,但这样在上线的中间过程中,总不可避免地会出现一些用户体验问题。比如用户相邻的多次刷新请求被路由到版本不同的副本上,导致请求结果的跳变。
ABtest实验细节整理_第5张图片
ABTest 同样具备划分流量的能力,而且这种划分对于单个用户来说是稳定的,其实在很多情况下可以利用 ABTest 能力来实现灰度发布,基于 ABTest 的灰度发布,要求在架构上提供一些支持。

5.3 早鸟用户

在很多时候,企业的内外部总存在着一些早鸟用户,他们对灰度 / AB 新功能有着非常迫切的需求,最典型的早鸟用户,就是公司的老板。在设计早鸟用户的功能体验时,
(1)可以通过Cookie 机制提供一个特殊的 URL,访问该 URL 就会种下一个强制命中的实验分组 Cookie,此后带着这个分组 Cookie 的访问都会中这个实验
(2)配置注入机制。提供一个二维码,二维码内容是一段特殊的代码,APP 扫描到该二维码,就会被注入实验分组配置
(3)隐藏功能机制。在某些内容上连续点 N 下,就会弹出一个配置面板,可以用来查看和调整当前所中的实验分组

5.4 分组信息控制产品功能

可以使用使用分组信息作为实验功能的开关

5.5 正交性实验

ABtest实验细节整理_第6张图片
(1)非正交实验:如左图展示,在旧版的基础上再做区分,会因为样本数量的问题而限制同时进行的实验个数,而且无法评估两个新版同时存在的影响。
(2)正交试验:右图展示,不同实验流量完全打散随机分配,上一个实验与下一个实验理论上流量上没有关联,这样可以在一个页面同时进行多项实验。

6.参考资料

1.《推荐系统开发实战》
2.A/B测试系列文章之怎么计算实验所需样本量
3.A/Btest样本量计算器
4.什么是 A/B 测试?
4.跟着实例一步步学会ABtest
5.假设检验-U检验、T检验、卡方检验、F检验
6.推荐系统从入门到接着入门
7.携程机票的ABTest实践
8.Overlapping Experiment Infrastructure: More, Better, Faster Experimentation

你可能感兴趣的:(推荐系统)