二分类问题特征选择的常用两个方法

二分类问题特征选择的常用两个方法

             by dylanfan  at  2014-6-25

 

1)互信息。值越大,相关性越强


 

w是特征,t是目标。反应的是特征出现和不出现对目标值的影响。

 

 

(2) 卡方检验


 

其中 A = N(w = 1, t = 1)、 B = N(w = 1, t = 0)、 C = N(w = 0, t = 1)、 D = N(w =

0, t = 0)

二分类问题特征选择的常用两个方法_第1张图片

 

卡方值越大,相关性越强。


卡方检验是统计假设特征和目标值独立不相关,然后从实际分布结果来看是否拒绝原假设。卡方值越高,拒绝的概率越高。 

下面是个卡方值对应的分布图。

二分类问题特征选择的常用两个方法_第2张图片


 

你可能感兴趣的:(二分类问题特征选择的常用两个方法)