【产品】数据驱动业务——AB测试

项目目标

评价产品改版,选择营销话术,研究目标用户,定位运营影响等场景都会用到AB测试。以下使用统计学方法建立完整的AB测试计算体系,主要分为:

  1. 自动化切分流量,使得切分的流量用户的特点尽可能相同。
  2. 设定AB版本比较指标。
  3. 确定比较AB版本哪个好的统计学方法。
  4. 上述过程的自助化实现。

项目方案

  1. 自动化切分流量:随机多层次分流策略。
  2. 设定AB版本比较指标策略:结合实际业务,与产品经理共同商议决定。
  3. 比较AB版本的统计学方法:假设检验,包括t检验和z检验。

技术理论介绍

  1. 自动化分流策略
    分流时重点考虑:采样的相似性,采样的代表性,是否需要按层次分流,流量的共用性。
  • 分层实验模型,由Google提出,具体思想:模型按照纵向和横向进行划分,纵向上流量进入独占流量实验区域,也可以进入并行实验区域;
    1)设计一种Hash算法,根据Cookie、随机值等信息,针对流量中的每个用户输出Hash值,范围是0-99共100个值。
    2)把流量按照Hash值分成100个桶,每个桶包含1%的流量,这100个桶就组成了并行实验区域中的分层(Layer1)。
    3)每层分别给每个实验使用,例如一个实验分ABC三组,分流比为50%、25%和25%,则A组包含桶号0-49、B组50-74、C组75-99。
    4)对于并行试验区域第2层每桶流量,则是通过第1层中每桶流量随机分配而来。
    5)随着实验的增多,并行实验区域的层数可以不断延伸。
    【产品】数据驱动业务——AB测试_第1张图片
  1. 整体评估指标,衡量实验好坏的量化标准。
  2. 概率论知识
  • 正态分布,期望描述集中趋势,方差描述离散程度,若x和y符合则他们的线性组合也符合。
  • 中心极限定理,当n充分大时,样本均值的抽样分布近似服从正态分布。它是支撑与置信区间相关的t检验和假设检验的计算公式及相关理论。
  • 数理统计三剑客:卡方分布、t分布、F分布。
  1. 假设检验
  • 基本概念:
    1)原假设(H0):实验者想收集证据予以反对的假设。备择假设(H1):原假设的反面。
    2)双边检验:备择假设中没有特定的方向性。如试验版本的总体均值不等于对照样本的总体均值。单边检验:备择假设中有特定的方向性。
    3)第一类错误(弃真错误):原假设为真时拒绝原假设;记为α。第二类错误(取伪错误):原假设为假时未拒绝原假设。
    4)置信度:为避免第一类错误发生,α尽可能小,常见的有0.01、0.05和0.10。对比试验中使用的α值为5%,这是显著性检验中最常用的小概率标准值。
  • p-value:显著性水平,指在原假设为真的条件下,样本数据拒绝原假设这个事件发生的概率。
  • t检验和z检验
  • 功效(power):若检验结果非显著,看功效是否足够大(80%-95%之间)。如果功效低于80%,则说明“非显著”的结果不靠谱,需要扩大样本重新观察。
  • 最小样本量
  • AA测试
  • 整体流程:
    1)设计新版功能,选定比较对象。
    2)确定整体评估指标,根据业务需求和KPI,设定实验好坏的评价指标。
    3)确定分流比例最好为1:1。
    4)确定置信度、功效值,根据整体评估指标计算最小样本量。
    5)开始实验并且每天跟踪数据。
    6)当达到最小样本量时,查看显著性结果、功效和AA测试结果。
    7)耐心观察一段时间,待结果稳定时得出最终结果。
    8)关闭实验,制作实验报告。

重点注意

  1. 一旦结果显著,不要立刻得出结论,最好再观察几天稳定下来。
  2. 统计上显著并不代表新版本一定好,企业应用重要看商业价值或投入产出比。统计显著不一定是效果显著。
  3. AB测试要有平常心,不要把精力放在优化页面点击率上,流失率是很难改进的。尽量不要最复杂的大量改动的实验,简单小的迭代更能看清更多细节。
  4. 实验需求方与数据分析方必须是两个独立部门,并且是平行的,否则很难给出公正的结果。

你可能感兴趣的:(产品,产品经理,ab测试)