AB实验知识备份

目录

一、AB实验介绍

1.1 什么是AB实验

1.2 为什么进行AB实验 

1.3 如何进行AB实验

二、AB实验架构

2.1 流量分配管理

2.2 埋点设计开发

2.3 数据收集处理

2.4 实验效果评估

三、AB实验流程

四、统计分析原理在ABTest中的应用

4.1 统计分布

4.2 置信区间

4.3 假设检验

五、总结

5.1 小结

5.2 探讨


一、AB实验介绍

1.1 什么是AB实验

    AB实验(也被称为AB测试、AB分桶、ABTest等)是为APP等产品的界面、流程、功能、算法等制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同或相似的用户随机访问这些版本,收集各组用户的行为数据,最后分析评估出最好版本,正式采用。
    AB实验最核心的思想是: 多个方案并行测试; 每个方案只有一个变量不同; 以某种规则优胜劣汰。 

1.2 为什么进行AB实验 

    通过实验的方式优化产品,提升核心指标,进而撬动留存、扩大用户群体、增加收入等。

进行AB实验的好处:
  • 量化效果,科学对比,根据实际效果确定最佳方案。
  • 降低新产品或新功能的发布风险,效果不理想可在少量用户中持续迭代,直至可全量发布或创新失败。

1.3 如何进行AB实验

a) 保证足够的样本量 
        采用足够的样本量以保障用户行为具有代表性。 
根据大数定律,如果统计数据足够大,那么事物出现的频率就能无限接近他的期望。
b) 选择无偏差的样本
        在要观测的指标上,用户应均匀分布,选择无偏差的样本以保障实验用户特征符合全量用户特征分布。
根据中心极限定理,样本平均值约等于总体平均值,任意一个总体的样本平均值都会围绕在总体平均值周围,并呈正态分布。
c) 遵循互斥正交原则合理分域分层分桶
        互斥:两个或多个实验内容相互影响时,根据互斥性将流量拆分为不重叠的分组进行实验。 
        正交:两个或多个实验内容不会相互影响时,根据正交性挑选均匀分散的流量进行实验。每个实验都会将用户重新随机打散。

         分域分层分桶:
  • 域1+域2=100%流量,互斥关系
  • B1层=B2层=B3层=域2流量,正交关系
  • (B2-1)+(B2-2)+(B2-3)=B2层流量,互斥关系
AB实验知识备份_第1张图片

二、AB实验架构

    AB实验架构分为流量分配管理、埋点设计开发、数据收集处理、实验效果评估4个部分。

2.1 流量分配管理

    流量分配环节将分域分层分桶逻辑代码落地,一般由算法或架构团队开发分流算法并产品化为实验管理后台。
        分流算法常采用hash或hash的变种,对(实验id+设备id)对进行打包分桶。加入实验id目的是确保不同实验正交化。
        实验管理后台实现实验创建、平台选择、人群圈选(新老,特定属性圈层,城市,版本,从属策略等)、流量划分、白名单等功能。

2.2 埋点设计开发

    埋点环节通常由数据产品或数据分析设计,前端同学开发上报(有时涉及后端开发),测试同学验证,数据同学灰度验收。
    埋点传送门: 数据埋点知识备份_ISIS7Protessional的博客-CSDN博客https://blog.csdn.net/ISIS7Protessional/article/details/121491694

2.3 数据收集处理

    数据开发相关同学通过flume等技术从集群采集数据实现数据的收集入库,数仓同学根据不同接口或主题搭建数据仓库完成数据处理环节。
    数据仓库传送门: 数据仓库知识备份_ISIS7Protessional的博客-CSDN博客https://blog.csdn.net/ISIS7Protessional/article/details/123093082

2.4 实验效果评估

    数据与业务同学讨论设计实验指标体系,自行或交由数仓同学开发相关数据报表。数据产品设计评估平台,与前后端及数据开发数仓同学共同完成评估平台搭建。
    评估平台通常涵盖对比分析(提升率)、显著性分析功能(置信度, 详见本文第四部分)。

三、AB实验流程

    AB实验一般由产品运营或算法同学提出,实验从产生到结束的过程可以套入增长黑客环及PDCA戴明环模型中。数据角度的实验流程则大致分为需求评审、实验创建、埋点圈层、官方放量、渠道放量、实验结论、代码下线。
PDCA戴明环:Plan(计划)、Do(执行)、Check(检查) 和 Act(处理),用于质量管理。

AB实验知识备份_第2张图片

AB实验知识备份_第3张图片

AB实验知识备份_第4张图片

四、统计分析原理在ABTest中的应用

4.1 统计分布

    以视频类产品为例,计划通过改变首页样式来提升点击率。不同用户在首页看到视频后都会有两种行为,点击或者不点击。在统计学上符合伯努利试验特征。

伯努利试验(Bernoulli experiment):在同样的条件下重复地、相互独立地进行的一种随机试验。
特点:该随机试验只有两种可能结果:发生或者不发生。

    当一个用户扩展到一个用户群体,该群体中会有一部分人点击视频,另一部分则不点击。该群体究竟有多少人会点击?有k个人点击的概率在统计上符合二项分布特征。

二项分布:重复n次伯努利试验,成功k次的概率。 
表达式:X ~ B(n,p)。n样本量,p每次试验成功的概率。
适用条件:进行独立试验,每次试验都有成功失败两个状态,每次试验成功的概率相同,试验次数有限(关心获得成功的次数)

    当用户群体量级比较大时,多少人点击的概率在统计上近似符合正态分布特征。

当二项分布的n很大时,可用正态分布的概率近似代替二项分布的概率。 μ=np,σ^2=npq
正态分布表达式:X~N(μ,σ^2)。μ期望(均值),σ标准差,σ^2方差

AB实验知识备份_第5张图片

    上述和AB实验有什么关系呢,先继续啃点概念。。。

4.2 置信区间

    假设100万人到达视频APP的首页,平均有10万人会点击视频,8~12万人点击视频的概率是95%。(每天人群可能不同,相同人群也不一样每次都会点击)对标到正态分布,100万是样本量,10万是均值,8~12万是置信度95%时的置信区间。
置信区间:展现参数的真实值有一定概率落在测量结果的周围的程度。
置信区间计算公式:均值+误差范围
置信度:也叫置信水平,统计量处于置信区间中的概率(如:女子a的身高在156-170cm范围内的概率是95.5%)

    如下为正态分布的3σ准则图(σ有时也用s表示),还用上边的例子,9~11万人点击的概率是90%,8~12万人点击的概率是95%,7~13万人点击的概率是99%(胡乱拍的)。如果做了一个实验,结果实验组有15万人点击!明显不在大概率范围内,15万人点击是一个小概率事件。根据假设检验小概率事件不太可能发生的思想判断实验组策略是有效的。
    假设检验?继续啃。。。

AB实验知识备份_第6张图片

4.3 假设检验

     假设检验依据小概率事件不太可能发生的思想,通过证明假设出现的概率很小来反证假设的对立面可能成立。
相关概念如下:
  1. 原假设 H0(null hypothesis):某个断言(实验组对照组一样)
  2. 备择假设 Ha(alternative hypothesis):跟原假设相反的断言(实验组对照组存在显著差异)
  3. 显著性水平 α (Significant Level,alpha):原假设发生的概率小于多少可以拒绝H0。(人为定义,一般为5%,1%)
  4. 置信度 1-α:置信度越高,结果的可靠性越高
  5. P值(P-value): 原假设成立的概率。(根据实验样本计算)
  6. P值 < α时拒绝原假设(如p(3%) < α(5%),实验组和对照组有显著差异)

AB实验知识备份_第7张图片

常用假设检验方法
  • T检验:主要用于小样本(n < 30),总体标准差σ未知的正态分布。T检验是用t分布理论来推论差异发生的概率,从而比较两个平均值的差异是否显著。
  • Z检验:一般用于大样本(n>30)平均值差异性检验,总体标准差σ已知。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均值的差异是否显著。在国内也被称作u检验。
应用参考: 假设检验之双样本Z检验公式在转化率指标和数值型指标上的应用_Backup and share的博客-CSDN博客
假设检验可能发生的两种错误
  • 第一类错误(发生概率=α):没用你以为有用(短期任务看似达标,长期没啥效果)
  • 第二类错误(发生概率= β):有用你以为没用(不仅浪费时间白做了,还否定了一个可能性)
一般显著性水平α=0.05,统计功效power=0.8(1-β)

AB实验知识备份_第8张图片

五、总结

5.1 小结

1、什么是:测试多个方案后选择一个最佳方案进行全面推广。
2、为什么:通过实验方式提升核心指标,进而撬动留存、扩大用户群体、增加收入。
3、如何做:保证足够的样本量、选取无偏差的样本、遵循互斥或正交原则。
4、实验架构:流量分配管理、埋点设计开发、数据收集处理、实验效果评估。
5、实验流程:需求评审、实验创建、埋点圈层、官方放量、渠道放量、实验结论、代码下线。
6、统计应用:假设检验依据小概率事件不太可能发生的思想,通过证明假设出现的概率(P值)很小来反证假设的对立面可能成立。

5.2 探讨

1、有些公司将实验组用户数视为样本量,符合大样本采用Z检验判断实验每天的提升是否显著,每天显著性不同; 有些公司将实验天数视为样本量,获取7天或以上数据后采用T检验判断实验效果是否显著(不太合理吧)
2、统计显著并不能说明肯定效果,还要结合业务目标思考背后逻辑。
3、夸大虚假的CTA(Call To Action)可以使某个A/B测试的结果正向,但长期来看,客户留存和销售额将会下降。因此,时刻要清楚我们追求的是什么,事先就要注意到可能会受到负面影响的指标。

参考:

1、 AB测试_百度百科
2、 PDCA循环_百度百科
3、 如何支持亿级用户分流实验?AB实验平台在爱奇艺的实践
4、 二项分布_百度百科
5、 正态分布_百度百科
6、 假设检验_百度百科
7、 假设检验的逻辑是是什么? - 知乎
8、 T检验&Z检验&AB test一网打尽! - 知乎

声明:文中引用了很多内容,仅作为学习使用,感谢各位作者给我们小白种的大树~~~

你可能感兴趣的:(数据分析基础,数据分析,abtest)