A/B测试分析

A/B-test解读

A/B-test是为同一个目标制定两个方案,在同一时间维度,分别让组成成分相同(相似)的用户群组随机的使用一个方案,收集各群组的用户体验数据和业务数据,最后根据显著性检验分析评估出最好版本正式采用。

假设检验的四个步骤:

一.问题是什么?

(1)确定两个假设:零假设和备选假设

零假设和备选假设是对立的。零假设总是表述为研究没有改变,没有效果,不起作用

(2)判断检验类型

单样本检验——检验单个样本的平均值是否等于目标值
独立双样本检验——检验两个独立样本的平均值之差是否等于目标值

(3)确定抽样分布类型

a.当样本数量大于30时,符合中心极限定理,抽样分布呈正态分布
b.样本数量小于30时,抽样分布符合t分布或其他分布

(4)确定检验方向
单尾检验

左尾:若备选假设包含有<,则选左尾检验


image.png

右尾:若备选假设包含有>,则选右尾检验


image.png
双尾检验

将判断标准一分为二位于抽样分布的两侧,左右侧各占一半判断标准,若假设中包含不等号,则属于双尾检验。


image.png

二.构建检验统计量

单个正态总体均值的假设检验

u检验(方差已知):
image.png

t检验(方差未知):


image.png
单个正态总体比例的假设检验

根据样本比率与总体比率的假设值P0 之差来对总体比率进行假设检验
当作为一个等式的原假设为真时,的期望值等于假设值P0,即E()=P0。的标准误差为:

image.png

如果np>=5并且n(1-p)>=5,则
的抽样分布近似服从正态分布。在实践中通常应用的这些条件下,式
image.png
服从正态分布,其中
image.png
对总体比率进行假设检验时,使用标准正态随机变量Z为检验统计量:
image.png

两总体均值的假设检验
u1-u2的假设检验的统计量(两总体方差已知):

image.png

其中n1和n2为样本量,D0=u1-u2

u1-u2的假设检验的统计量(两总体方差未知):
image.png
两总体比例之差的假设检验

当p1=p2=p时,p的合并估计量:

image.png

p1-p2的假设检验的检验统计量:
image.png

三.求P值和判断标准

当p<=α时,拒绝零假设,接受备选假设
当p>α时,接受零假设

四.得出结论

实例:单样本

环保标准规定汽车的新排放标准:平均值<20ppm,现某汽车公司测试10辆汽车的排放结果如下:15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9 。问题:公司引擎排放是否满足新标准。

一、问题是什么

1、零假设:公司引擎排放不满足标准,即平均值>=20
  备选假设:公司引擎排放满足标准,即平均值<20
2、判断检验类型:该例子为单样本检验
3、确定抽样分布

1)用python展示统计描述(平均值、标准差)
image.png

计算的样本平均值为17.17ppm,标准差为2.98ppm

2)我们知道当样本数量大于30时,符合中心极限定理,抽样分布呈正态分布,样本数量小于30时,抽样分布符合t分布或其他分布。为了知道这是个样本的分布,我们可以使用python中的displot绘图,画出直方图和拟合曲线
image.png

从绘图中可以看出样本数据集近似正态分布,又因为该样本量小于30因此抽样分布符合t分布。自由度df=n-1=9

3)确定检验方向:

由于备选假设中包含<,则属于左尾假设

二.计算p值
1)手动计算

image.png

根据t表格,即可找出p值,这里我们也可以用下面链接中的工具得出p值。
https://www.graphpad.com/quickcalcs/pValue2/
最后得到p值为0.015,但这个工具计算的是双尾检验的p值,根据下图我们可以看出双尾检验的p值为单位检验的2倍,因此这里的p值应为 0.15/2 = 0.0075

2)调用python自带方法计算
image.png

三、判断标准

建立判断标准检验证据是否有效,给定的判断标准即显著水平α=5%
当p<=α时,拒绝零假设,接受备选假设
当p>α时,接受零假设

四、得出结论

用python代码来判断如下:
左尾判断条件:t<0 and p < alpha
右尾判断条件:t>0 and p < alpha


image.png

实例2:A/B测试

简介

对于这个项目,你将要了解的是电子商务网站运行的 A/B 测试的结果。你的目标是通过这个 notebook 来帮助公司弄清楚他们是否应该使用新的页面,保留旧的页面,或者应该将测试时间延长,之后再做出决定

I数据的基本处理

(1) 导入数据库
image.png
(2) 导入数据集,并在这里查看前几行:
image.png
(3)使用下面的单元格来查找数据集中的行数。
image.png
(4)数据集中独立用户的数量
image.png
(5)用户转化的比例
image.png
(6)new_page 与treatment 不一致的次数
image.png
(7) 是否有任何行存在缺失值?
image.png
(8)现在创建一个符合测试规格要求的新数据集。将新 dataframe 存储在 df2 中
image.png
(9)检查有无不匹配值
image.png
(10)df2 中有一个重复的 user_id 。它是什么?
image.png
(11)删除 一个 含有重复的 user_id 的行, 但需要确保你的 dataframe 为 df2
image.png
(12)不管它们收到什么页面,单个用户的转化率是多少?
image.png
(13)一个用户收到新页面的概率是多少?
image.png

II A/B测试

(1)假设:

零假设:p_new -p_old <=0
备择假设:p_new -p_old >0

(2)

假定在零假设中,不管是新页面还是旧页面,p_new and p_old都具有等于转化 成功率的“真”成功率,也就是说, p_new and p_old是相等的。此外,假设它们都等于ab_data.csv 中的 转化 率,新旧页面都是如此。
每个页面的样本大小要与 ab_data.csv 中的页面大小相同。
执行两次页面之间 转化 差异的抽样分布,计算零假设中10000次迭代计算的估计值

(3) 在零假设中,p_new和p_old 的 convert rate(转化率) 是多少?
image.png
(4)n_new和n_old是多少?
image.png
(5)在零假设中,使用 p_new 转化率模拟 n_new 交易,并将这些 n_new 1 与 0 存储在 new_page_converted 中。
image.png
(6)在零假设中,使用 p_old转化率模拟 n_old交易,并将这些 n_old 1 与 0存储在 old_page_converted 中。
image.png
(7)在 (5) 与 (6)中找到p_new-p_old模拟值
image.png
(8)使用(3). 到 (7) 中的计算方法来模拟 10,000个 p_new-p_old 值,并将这 10,000 个值存储在 p_diffs 中
image.png
(9)绘制一个 p_diffs 直方图
image.png
(10)在p_diffs列表的数值中,有多大比例大于 ab_data.csv 中观察到的实际差值
image.png
(11)得出结论

p_value=0.9
α=0.05
p_value>α,接受零假设

你可能感兴趣的:(A/B测试分析)