卡方检验的特征选择

卡方检验是特征选择中常用的算法之一。

  1. 卡方分布(chi-square distribution):

    定义:若k个独立的随机变量 z 1 , z 2 , … , z k z_1,z_2,…,z_k z1,z2,,zk,且 z i z_i zi~ N ( 0 , 1 ) N(0,1) N(0,1)(i=1,2,…,k), 则这k个随机变量的平方和 Z = z 1 2 + z 2 2 + … + z k 2 Z=z_1^2+z_2^2+…+z_k^2 Z=z12+z22++zk2为服从自由度为k的卡方分布,记为: Z Z Z~ x 2 ( k ) x^2(k) x2(k)

    卡方分布的期望: E ( x 2 ) = n E(x^2)=n E(x2)=n, 方差: D ( x 2 ) = 2 n D(x^2)=2n D(x2)=2n, n为分布的自由度

  2. 卡方检验

    思想:根据样本数据推断总体的分布于期望分布是否有显著性差异.
    卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种.理论证明,实际观察次数 与 理论次数 ,又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,由统计学家皮尔逊推导

    X 2 X^2 X2计算公式: X 2 = ∑ ( A − T ) 2 / T X^2=\sum{(A-T)^2/T} X2=(AT)2/T

    其中 A为实际值,T为理论值

    X 2 X^2 X2包含的信息:1.实际值与理论值偏差的绝对大小;2.差异程度与理论值得相对大小

  3. 卡方检验做特征选择

    假设有一堆新闻标题,需要判断新闻标题是否包含某个词(吴亦凡)与新闻标题是否属于娱乐新闻 是否有统计上的差别?

    组别 属于(娱乐) 不属于(娱乐) 合计
    不包含(吴) 19 24 43
    包含(吴) 34 10 44
    合计 53 34(34/87=39.1%) 87

    娱乐新闻占比:p=60.9% 。非娱乐:q=39.1%
    包含吴 的娱乐新闻占比更高(34/53=64%),无法排除是否有抽样误差导致的。
    假设:是否包含吴亦凡与新闻是否属于娱乐是独立无关的

    理论(期望)值为:

    组别 属于(娱乐) 不属于(娱乐)
    不包含(吴) 43*p=26.2 43*q=16.8
    包含(吴) 44*p=26.8 44*q=17.2

    x 2 x^2 x2卡方值为:
    x 2 = ( 19 − 26.2 ) 2 / 26.2 + ( 34 − 26.8 ) 2 / 26.8 + ( 24 − 16.8 ) 2 / 16.8 + ( 10 − 17.2 ) 2 / 17.2 = 10.014 x^2=(19-26.2)^2/26.2+(34-26.8)^2/26.8+(24-16.8)^2/16.8+(10-17.2)^2/17.2=10.014 x2=(1926.2)2/26.2+(3426.8)2/26.8+(2416.8)2/16.8+(1017.2)2/17.2=10.014
    标准的四表格 x 2 x^2 x2卡方值可用以下公式计算:

    x 2 = ( A + B + C + D ) ( A D − B C ) 2 / ( A + B ) ( C + D ) ( A + C ) ( B + D ) x^2=(A+B+C+D)(AD-BC)^2/(A+B)(C+D)(A+C)(B+D) x2=(A+B+C+D)(ADBC)2/(A+B)(C+D)(A+C)(B+D)
    x 2 x^2 x2值越大,则表明实际观察值与期望值偏离越大,也说明两个事件的相互独立性越弱。

参考文献

  1. 检验是否合理

你可能感兴趣的:(机器学习)