一般有两种以上方案,通过小范围发布,让相似用户去随机体验几种方案之一,根据观测结果,选择效果最好的版本。
假设检验:用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
显著性检验:假设检验中最常用的一种方法,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。
P值:在原假设成立的前提下,出现错误实验结果或更极端结果出现的概率。
显著性水平:估计总体参数落在某一区间内,可能犯错误的概率,用α表示。
置信区间:由样本统计量所构造的总体参数的估计区间。
β值:第二类错误(原假设错误实验结果认为正确)发生的概率。
样本量计算器,一般输入4个参数:α和β分别称为第一类错误概率和第二类错误概率,一般分别取0.05和0.2;Z为正态分布的分位数函数;Δ为两组数值的差异,如点击率1%到1.5%,那么Δ就是0.5%;σ为标准差,是数值波动性的衡量,σ越大表示数值波动越厉害。
Z检验:一般用于大样本(即样本容量大于30)平均值差异性检验的方法。
T检验:主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。
卡方检验:卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度。
实验目标人群(实验策略大盘渗透率不高的情况下,取大盘抽样数据局部收益容易不敏感)
1.考虑用户生命周期,一般为覆盖1-2个(7-14天)
2.每日样本量比较少的情况下,实验时长=总样本量/每日样本量
核心指标:(避免选择虚荣指标)这种指标是决定实验成败的关键指标
辅助指标:(辅助判断实验对其他因素的影响以及体现实验目标如何达成)(1)漏斗细分转化率(2)重要下游指标(3)其他关键用户指标
反向指标:(实验可能的负面影响)退货率,页面退出率,应用删除率,Push退订率,订单取消率,邮件退订率等等
正收益:大盘核心指标增长,负向指标无影响;大盘指标波动不大,直接影响指标(分层、分群、局部)增长,负向指标无影响。
原因:新奇效应(周内效应);犯了第一类错误
解决方案:实验结果显著后不马上上线,确定样本量是否达到要求,覆盖至少1-2个用户生命周期;持续观察一段时间指标直到指标波动基本稳定
负收益:实验差距不大;结果不显著;负向指标有影响。
原因:犯了第二类错误;结果中存在偶然因素;辛普森悖论(原因:数据分流不完全随机,存在潜在相关变量分布不均匀);实验本身收益不显著
解决方案:样本空间量不足,如果不能增加样本量,可适当延长实验时间;设置置信阈值,剔除大偶然事件影响;随机分层抽样;某两个变量对试验结果都有影响,那就应该把这两个变量放在同一层进行互斥试验,不要让一个变量的试验动态影响另一个变量的检验;试验结果要进行多维度细分分析;实验确实没有收益考虑停止实验,分析可优化点准备下次实验;上线反转实验(观察功能长期影响,在原实验没有经历完整周期或数据没置信时就上全量的背景下)(上线后保留一小部分流量做反转——从对照用户组中,抽一部分流量,再开一次A/B实验,a组为实验条件,b组为对照条件)