机器学习——特征工程之特征选择

1. 特征选择

1. 过滤法

1)方差筛选
方差越大的特征,我们认为一般比较有用,设定方差阈值,舍弃方差小于阈值的特征
2)相关系数筛选
主要用于输出连续值的监督学习算法中,计算所有训练集中各个特征与输出值之前的相关系数,设定阈值,选择相关系数较大的部分特征
3)假设检验,如卡方检验、F检验和T检验。在sklearn中,可以使用chi2做卡方检验得到所有特征的卡方值与显著性水平P临界值,设定卡方阈值,选择卡方值较大的部分特征
4)互信息
参考决策树中互信息

2. 包装法

最常用的包装法是递归消除特征法(recursive feature elimination, RFE),使用机器学习进行多轮训练,每轮训练后消除若干权值系数对应的特征,再基于新的特征集进行下一轮训练

3. 嵌入法

采用机器学习的方法选择特征,最常用的是L1正则化和L2正则化,正则化惩罚项越大,模型的系数就会越小,当正则化惩罚项大到一定程度时,部分特征系数会变0,当正则化惩罚项继续增大到一定程度时,所有的特征系数都会趋于0. 但是我们会发现一部分特征系数会更容易先变成0,这部分系数就是可以筛掉的

2.高级特征

在我们拿到已有的特征后,我们还可以根据需要寻找到更多的高级特征。比如有车的路程特征和时间间隔特征,我们就可以得到车的平均速度这个二级特征。根据车的速度特征,我们就可以得到车的加速度这个三级特征,根据车的加速度特征,我们就可以得到车的加加速度这个四级特征。。。也就是说,高级特征可以一直寻找下去。

你可能感兴趣的:(机器学习)