卡方检验用于特征选择

卡方检验是特征选择中常用的算法之一。

(1)      卡方分布(chi-square distribution):

定义:若k个独立的随机变量z1,z2,…,zk,并且符合标准正太分布N(0,1), 则这k个随机变量的平方和 为服从自由度为k的卡方分布,记为:x~x2(k)

卡方分布的期望:E(x2)=n, 方差:D(x2)=2n, n为分布的自由度

(2)      卡方检验

思想:根据样本数据推断总体的分布于期望分布是否有显著性差异

X2计算公式:x2=sum{(A-T)2/T}

其中 A为实际值,T为理论值

X2包含的信息:1.实际值与理论值偏差的绝对大小;2.差异程度与理论值得相对大小

(3)卡方检验做特征选择

卡方检验用于特征选择_第1张图片

你可能感兴趣的:(NLP)