【特征选择】特征选择的几种方法

    1. 特征选择*

无效变量

不相关变量,多余变量

统计方式的特征选择

方差阈值化、卡方检验、ANOVA检验及T检验、皮尔森相关系数

高度相关特征的选择(多余变量)

模型方式的特征选择

决策树、逻辑回归,随机森林,XGBoost

模型会自动选择变量

递归式的特征选择。

将特征慢慢消除,限制到特定范围内。

【特征选择】特征选择的几种方法_第1张图片

 

当输入增加,就必须增加数据,不然模型就会不稳定,

      1. 无效变量

不相关变量,多余变量

【特征选择】特征选择的几种方法_第2张图片

 

Redundancy:两个变量的相关性太高,说明1二者的概念可能是否接近,也就是多余变量,可以采取合并的方法。甚至删除字段,二者带来的信息

Irrelevancy:X4,X3就是不相关变量,X4变大时会发现目标值的变动。当X3变动的时候预测值是随机的,不相关,无法带来信息。

【特征选择】特征选择的几种方法_第3张图片

 

      1. 统计方式的特征选择

VT方差阈值化:算出数值型字段的方差,如果低于某个值,说明它包含的信息量不足。

方差不能事先对它进行标准化。比如Z-scold 它的方差为1,均值为0

必须决定一个门槛值,是否删除该字段

二元变量:把其中一个编码为1,一个编码为0方差就是P(1-P)(先做特征转换)

【特征选择】特征选择的几种方法_第4张图片

 

当方差越大,说明是越重要的字段。最大值是0.25。

当然,这个与目标无关

      1. 统计检验的方式:

输入字段与目标字段的关系

类别型字段:卡方检验:输入字段与目标字段的关联性

数值型字段:ANOVA检验(目标字段大于2就行):T检验(目标字段只有2个值,比如yes or no):来检验输入字段与目标字段的关联性。

ANOVA案例:背景音乐是否会影响消费者心情。音乐(输入字段)与酒类购买的关系。

无音乐,French手风琴,italian手风琴

酒:French、italian、其他酒类

统计量

【特征选择】特征选择的几种方法_第5张图片

 

真实销售减去期望值求和除以期望值求和

【特征选择】特征选择的几种方法_第6张图片

 

【特征选择】特征选择的几种方法_第7张图片

 

这是期望频数。设二者相互独立,概率1乘以概率2,乘总数243.

上表减下表,平方之和,除以均值之和

【特征选择】特征选择的几种方法_第8张图片

 

得到的值越大越好。对比的数值可以查表,

先计算其卡方值,利用该值查表,对应的概率,如果小于显著性水平0.05,说明二者无关的概率极小,予以排除。

案例小额信贷卡方检验结果:

【特征选择】特征选择的几种方法_第9张图片

 

1234就比较重要,5678不重要

T检验流程:先进行F检验,如何对各自变量进行T检验

 

【特征选择】特征选择的几种方法_第10张图片

 

低于0.05就看作重要变量

ANOVA检验流程:先求出F-value,如何求T-value

 

结果十分接近。

皮尔森相关系数:

高度相关特征的选择(多余变量):

经常会出现高度相关字段,带来的信息是重复的,利用皮尔森相关系数,查看二者的相关性。大于0.95就抹除变量。

要看保留那个,可以求变量1和变量2与目标的关系。

      1. 模型方式的特征选择

决策树、逻辑回归,随机森林,XGBoost

模型会自动挑选最重要的变量,不具有共线性的变量,

可以解决共线性,不相关问题。

      1. RFECV(递归变量选择。)

交叉验证的方法来验证。CV。

RFE:重复

评估的指标可以用你决定的指标。移除变量,如果指标变差了就

【特征选择】特征选择的几种方法_第11张图片

 

 

后退法:先用交叉验证,得到指标值,移除其中一个,指标变好之后,继续移除,如果指标值变差了,就回去不消除了。

3种方法,前进法,后退法,逐步回归

效果最好,但是耗能多,浪费时间

你可能感兴趣的:(数据分析师,大数据,数据分析,数据挖掘)