特征选择的三种方法

特征选择的三种方法

包装方法(wrapper method)是“围绕”着特定的预测模型建立的。每个特征子集用来训练一个模型。训练得到的模型的泛化性能可以为该子集评分。包装方法是计算密集型的,但通常为特定模型提供表现最佳的特征集。

过滤方法(filter method)使用代理度量而不是错误率为特征子集评分。常用的度量包括互信息和相关系数。许多过滤器提供特征的排名,而不是一个明确的最佳特征子集。

嵌入方法(embedd method)将特征选择作为模型构建过程的一部分。这种方法的一个例子是用于构建线性模型的 LASSO 方法,它带有回归系数的惩罚,使得其中许多系数收缩到零,从而相应的特征可以消除。另一种方法是递归特征消除,常与支持向量机一起使用,反复构建一个模型,并删除低权重的特征。

在以上三种方法的基础上,我们又得到两种变种方法

通过将过滤方法与包装方法相结合,人们可以用自底向上或自顶向下的方式进行处理。在一个自底向上的贪心式包含方法中,人们根据单个特征的识别能力的顺序来逐步添加特征,并通过验证组输出误差是否减少来检验效用。特征的最优数量可以用启发式的方法确定,即
验证集上测量的输出误差停止下降时的数量。实际上,如果超过该数量点时仍添加更多的特征,误差可能保持稳定,甚至因为过拟合而逐渐增加。

**在自顶向下的截断法中,**人们从完整的特征集开始,逐步消除特征,同时寻找最佳性能点(持续检查在一个合适的验证集上的误差)。

你可能感兴趣的:(python,机器学习,机器学习)