处理
实验对象所接触的东西,例如药品、价格、Web 标题等。
实验组
执行特定处理的一组对象。
对照组
执行标准处理或不执行处理的一组对象。
随机化
随机地分配实验对象以进行处理的过程。
实验对象
接受处理者,例如 Web 访问者、病人等。
检验统计量
用于检验处理效果的度量
零假设
完全归咎于偶然性的假设。
备择假设
与零假设相反,即实验者希望证实的假设。
单向检验
在假设检验中,只从一个方向上计数偶然性结果。
双向检验
在假设检验中,从正反两个方向上计数偶然性结果。
置换检验
将两组或多组样本组合在一起,并将观测值随机地(或穷尽地)重新分配给重抽样。
p 值
对于一个加入了零假设的偶然性模型,p 值指得到与观测结果一样不寻常或极端的结果的概率。
α 值
在实际结果的确是统计显著的情况下,α 值指偶然性结果必须超出的“不寻常性”概率的阈值。
第一类错误
错误地将一个由随机导致的效果归结为真。
第二类错误
错误地将一个为真的效果归结为由随机导致的。
检验统计量
对我们所关注的差异或效果的度量。
t 统计量
归一化的检验统计量。
t 分布
一种用于比较所观测到的 t 统计量的参考分布。对于 t 检验,参考分布是从零假设生成的。
错误发现率
在多重检验中,犯第一类错误的比率。
p 值校正
用于在同一数据上做多重检验。
过拟合
拟合了噪声
两两对比
对于有多个组的情况,在两个组之间做假设检验(比如对均值)。
多项检验(omnibus test)
一种可以测定多个组均值间方差的单一假设检验。
方差分解
从整体统计量中(例如,从整体均值、处理均值以及残差中),分离出单个值的贡献情况。
F 统计量
一种归一化统计量,用于衡量多个组均值间的差异是否会超过随机模型的预期。
SS
sum of square(平方和)的简写,指与某一均值的偏差。
卡方统计量
观测数据偏离预期程度的量度。
期望值 / 期望
在某种假设(通常是零假设)下,我们期望数据能给出的结果。
d.f.
自由度。
多臂老虎机
一种假想的老虎机,提供多个拉杆供用户选择,每个拉杆对应不同的收益,用于模拟多处理实验。
臂
表示实验中的一个处理,例如 Web 测试中的标题 A。
获胜
通过实验模拟老虎机上的获胜,例如客户点击了链接。
效果规模
在统计检验中,期望能检测到的效果的最小规模,例如点击率提高 20%。
检验效能
给定样本规模,检测到给定效果规模的概率。
显著性水平
在检验中所使用的统计显著性水平。
实验设计是统计学实践的基石。实验设计的目标是设计出能确认或推翻某个假设的实验。
统计推断流水线
对照组和实验组。实验中的一个典型假设是实验组要优于对照组。对照组确保其他条件均一样
随机指定对象给一组处理。关注比较A组和B组时的检验统计量
为什么需要做出一个假设?为什么不能只是查看实验的结果,然后选择处理结果更好的那一组?
人们在思想上倾向于低估天然随机行为的范围。为此,人们提出了统计假设检验方法,目的是使研究人员免受随机性的愚弄。
假设检验也称显著性检验,目的是确定一个观测到的效果是否是由随机性(random chance)造成的。
基线假设,即各个处理是等同的,并且组间差异完全是由偶然性所导致的
与零假设相互抵消,须涵盖了所有的可能性
单向假设,有方向的备择假设(即 B 比 A 好)
双向假设,双向的备择假设(即A 不同于 B,它可能更大,或是更小)
从观测数据中反复地抽取数据值,目标是评估一个统计量中的随机变异性。包括自助法和置换检验
涉及两组或多组样本。查看组间差异是否与偶然性无关
组间差异,与置换差异进行对比。如果观测到的差异大部分落在置换分布之外,们称差异是统计显著的
步骤:
置换检验将多个样本组合在一起,并做随机混洗。
对混洗后的值做分组并重抽样,计算我们感兴趣的统计量。
重复上述过程,并在表格中记录重抽样统计量的情况。
对比统计量的观测值与重抽样分布,就可以判定观测到的样本间差异是否由偶然性导致的。
统计显著性,用于衡量一个实验所生成的结果是否会比随机情况下可能给出的结果更极端。如果生成的结果超出了随机变异的范围,则我们称它是统计显著的。
p 值表示随机模型生成的结果比观测结果更极端的频数。表示模型所生成的结果与观测到的结果同样极端的概率
如p 值为 0.308,这意味着随机性给出的差异,有望在约 30% 的情况下大于或等于观测差异
在实际结果的确是统计显著的情况下,α 值指偶然性结果必须超出的“不寻常性”概率的阈值
第一类错误:错误地将仅由随机性导致的效果判定为真。
第二类错误:错误地将实际为真的效果判定为假的(即由随机性导致的)。由于样本的规模过小
p 值不应被视为一种决定性的因素,而应被视为是另一种可以辅助决策的信息
所有的显著性检验都要求指定一个检验统计量去测量所关注的效果
t检验很好地近似了置换(随机混洗)分布,t检验基于t分布
使用 t 分布时,为了排除规模因素的影响,必须对检验统计量做归一化处理
添加的变量越多,或者运行的模型越多,那么偶然出现错误的“统计显著性”的概率就会越大。
为防止以上问题,使用了校正过程
应用于从样本数据计算得到的统计量,指可以自由变化的值的个数
是很多统计检验的一个输入
是归一化计算的一部分,使归一化后的结果可以与参考分布(t分布,F分布)进行对比
回归中,为避免出现多重共线性问题,应考虑其中隐含的自由度概念
检验多个组之间统计显著性差异
重抽样方差超过观测方差的比率,就是 p 值
方差分析的一个有用结果是识别出与组处理、交互效果和误差相关的方差成分。
F统计量参考标准的 F 分布,以确定处理均值间的差异是否会大于随机变异的预期差异。
两个变化因子
卡方检验适用 于计数数据,它可以检验数据与预期分布的拟合程度。在统计实践中,卡方统计量的最常见用法是与 r×c 列联表一起使用,以评估对变量间独立性的零假设是否合理。
卡方分布
在计数非常低时,以实际列出所有可能出现的重排(置换)情 况及其频数,进而确定观测结果的极端程度。这一操作被称为费舍尔精确检验
卡方检验的大多数标准用法(以及费舍尔精确检验),与数据科学的联系并不是十分紧密。一些研究人员广泛地使用了卡方检验,以确定难以捉摸的统计显著性 p 值,进而使自己的研究成果适合发表。
在数据科学的应用中,并不是将卡方检验或类似的 重抽样模拟作为正式的显著性检验,而是更多地将此类检验方法作为一种过滤器,用以确定某个效应或特征是否值得进一步考虑
相比于传统的 A/B 测试,能有效地应对三种以上的处理,并趋向于最佳选择的方向
检验效能是指在一定的样品特性(尺寸和变异性)下,检测到指定效果规模的概率。
如设在 25 个打数中,区分打击率为 0.330 的击球手和打击率为 0.200 的击球 手的概率是 0.75。则在两名击球手 的 25 打数(n = 25)实验中,效果规模为 0.130(0.33-0.2),(假设)检验效能为 0.75,即 75%
检验效能计算最常用于估计所需的样本规模
如果指定了其中三个成分,那么就可计算得到第四个成分