AB测试原理(四)非参数检验(1)

引用(商务与经济统计19章)

实践中样本总体往往不服从正态分布,下面介绍针对非正态分布总体的假设检验,也称为非参数检验。

1.符号检验

1). 符号检验样本数n<20, 单个总体中位数差异双侧检测过程:

(1)给定来自同一总体的N个样本值,给定一个假设的总体中位数 m

(2) H0: 总体中位数 = m,H1:总体中位数≠m, 确定显著度α

(3) 将N个样本中>m 的样本记为“+”,

(4)令P表示“+”号的概率,则若中位数=m(H0成立),p=0.5,所以将假设转化为二项分布概率p的假设:

H0: p=0.5, H1:p≠0.5

(5)计算二项分布的概率分布图,binomial(n=i, p=0.5), i= 1, ...n,

(6) 由于是双侧检测,p为"+"的概率:

(7) 若 p-value < α,拒绝假设H0(总体中位数不是m), 否则不能拒绝假设H1

2).符号检验样本数>20, 单个总体中位数单侧检测过程:

(1)给定来自同一总体的N个样本值,给定一个假设的总体中位数 m

(2)H0: 总体中位数 >= m,H1:总体中位数

(3)将N个样本中>m 的样本记为“+”,

(4)令P表示“+”号的概率,所以将假设转化为二项分布概率p的假设:H0: p>=0.5, H1:p<0.5 

(5) n+ < 0.5n (否则一般不会有下降的备则假设H1), 位于二项分布下侧,

,可以这样计算

(6) 由于当n>20时,二项分布随机变量x(正的频数) 近似服从

为的连续因子矫正值, 

(7) 若p-value <α, 拒绝H0(指标中位数有所下降), 否则无法拒绝H0

2. 匹配样本(成对样本)的假设

检测两总体是否有差异的检验过程:

(1) 提供N对样本,其中一个来自总体1,另一个来自总体2,

(2) 每一对样本,偏好总体1为“+”, 偏好总体2偏好为“-”, 无差别的样本删掉, 得n个样本

(3) 定义p为偏好总体1的概率,H0: p=0.5, H1: p ≠0.5, 定义显著度α

(4) 符号检验,双侧:

                                                       (5) 若 p-value <α,拒绝H0(两总体有偏好差别), 否则无法拒绝H0

若 N > 20, 亦可用正态分布求p-value。

3. 连续区间校正

当随机变量X是离散变量时,用正态分布近似要将X=x的离散概率近似为(x-0.5, x+0.5)区间上的正态概率,

若为上侧取 X= x+0.5, 若为下侧取 X=x-0.5

你可能感兴趣的:(AB测试原理(四)非参数检验(1))