卡方分布和卡方检验在很多地方都会用到,尤其是统计学和数据分析里。
卡方检验(chi-square,记为χ2检验)是一种计数资料的假设检验方法,因为对总体的分布不作任何假设,故属于非参数检验。
第一次碰见是在ORB-SLAM2检验单应矩阵中。
现在在卡方检验重新梳理一下。
卡方检验是基于卡方分布的一种假设检验方法。
实际观察次数fo与理论(期望)次数fe之差的平方除以理论次数fe所得的值,近似服从卡方分布。
卡方检验的公式:
卡方分布的定义与性质:
E(X):期望值;Var(X):方差。
通常,Xn2密度函数的定义域为(0,+∞),且自由度n越大,其密度曲线越趋近于对称;n越小,曲线越不对称。
若X ~ Xn2,记 P (x>c) = α, 则 c = Xn2(α) 则称为Xn2分布的上侧α分位数,如下图所示,gn(x)是Xn2的密度函数。
注:显著性水平是:估计总体参数落在某一区间内,可能犯错误的概率,用α表示。
当α和n给定时,可查表得到 Xn2(α)的值。如 X102(0.01) = 23.209, X52(0.05) = 12.592等。
卡方检验(chi-square,记为χ2检验)是一种计数资料的假设检验方法,因为对总体的分布不作任何假设,故属于非参数检验。
根本思想:比较实际频次fo与理论频次fe的吻合程度或拟合优化问题
使用的情况:当事实与期望不符合情况下使用卡方分布进行检验,看是否系统出了问题,还是属于正常波动。利用卡方分布分析结果,排除可疑结果。
作用:主要用于比较两个及两个以上的样本率或分类变量的关联性分析。检查实际结果与期望结果之间何时存在显著差异。
步骤:
显著性水平是:估计总体参数落在某一区间内,可能犯错误的概率,用α表示。
显著性水平是假设检验中的一个概念,是指当原假设为正确时人们却把它拒绝了的概率或风险。它是公认的小概率事件的概率值,必须在每一次统计检验之前确定,通常取α=0.05或α=0.01。这表明,当作出接受原假设的决定时,其正确的可能性(概率)为95%或99%。
检测标准:卡方分布检验是单尾检验且是右尾,右尾被作为拒绝域。于是通过查看检验统计量是否位于右尾的拒绝域以内,来判定期望分布得出结果的可能性。
期望频数总和与观察频数总和相等
期望频数 = 观察频数总和*出现某种结果的概率,其实就是求期望值。
如下表的,X= -2的期待频数为977。
检验统计量X2意义:fo与fe之间差值越小,检验统计量X2越小。
卡方检验的标准:如果统计量值X2很小,说明实际观察频数和期望频数之间的差别不显著;统计量越大,差别越显著。故还是越小越好。
按观察频率和期望频率表(上表),计算检验统计量X2:
自由度:用于计算检验统计量的独立变量的数目。
自由度的计算:
对于单行或单列:自由度 = 组数 - 限制数
对于表格类:自由度 = (行数 - 1) * (列数 - 1)
例子:
假设自由度为4, 5%的显著水平,查表得到其拒绝域是9.49,也就是说检验统计量大于9.49位于拒绝域内。
按上面计算得到的检验统计量X2 = 38.272 > 9.49 位于拒绝域内。
如果位于拒绝域内我们拒绝原假设H0,接受H1。
如果不在拒绝域内我们接受原假设H0,拒绝H1。
上述,因为检验统计量38.272 > 9.49 位于拒绝域内,所以拒绝原假设,接受备择假设。
比如,
原假设H0是:机器没有故障,一切正常
备择假设H1:机器故障,违反常规。
本文为了ORB-SLAM2中的一些卡方检测(例如,剔除外点策略)而准备。