学习简记_特征工程

特征工程

  • 1.特征变换
    • 1.1连续变量无量纲化
    • 1.2连续变量离散化
    • 1.3类别特征转换
  • 2.特征组合
  • 3.特征评价

吴恩达老师有言:“机器学习本质上还是特征工程,数据和特征决定了机器学习上限,模型和算法只是去尽可能逼近这个上限而已。”
特征工程是基于原始特征,可以用变换、组合、评价优选及学习等方法来获得更强区分能力的特征。

1.特征变换

1.1连续变量无量纲化

无量纲化指将不同规格的数据转换到同一规格,常见方法有标准化和区间缩放法。由于标准化的前提条件是特征值服从正态分布,略歪的可先用log处理。区间放缩法,常见利用两个最值进行放缩,使所有点都在[0,1]内。

单特征转换是神经网络、线性回归等模型的关键,对决策树相关模型没有影响。但在进行回归预测时,对目标值取对数处理,可以缩小数据范围,且压缩变量尺度能使数据更平稳。另外,如果特征没有被规范化,当一个特征的分布在0附近分布很小,但另一个特征分布范围在数十万数量级时,会导致分布位于0附近的变量变得无用。

1.2连续变量离散化

离散后的特征对异常数据有更强的健壮性,便于探索数据相关性。常用离散化分为无监督与有监督两种。

无监督的离散化常用有分箱法,如等频(使数据变成均匀分布)、等距(保持数据原有分布)。

有监督的离散化常使用树模型返回叶子节点来进行离散化。如GBDT+LR模型(梯度提升决策树+逻辑回归)

1.3类别特征转换

对于离散型的类别进行编码,常见有:自然数编码(特征有意义)和独热编码(One-Hot,特征无意义)

自然数编码,常用于一列有意义的类别特征,即有顺序关系,利用自然数的大小关系保留其顺序关系,如年龄段。内存小、训练快,但可能会丢失特征信息。

独热编码,常用于类别特征没有顺序关系,如颜色。

2.特征组合

工程项目的话,组不组还是要考虑实际含义的
通过两个或多个原始特征通过一定规则或映射得到新特征,常见有基于特定领域知识、二元组合和高阶多项式。

基于特定领域知识依靠经验人工组合。对于预测问题,结合相关领域知识,进行组合特征衍生。

二元组合是从所有原始特征中选择两个特征的取值进行组合来构建新特征。为了便于处理,通常将原始特征全部转换成逻辑特征,基于转换后的特征集进行二元组合。

高阶多项式适用有强烈非线性特点的建模特征。

3.特征评价

通过特征构建已得到的方法得到了的数据集可能存在大量的特征,特征之间可能存在相关性以及冗余特征。为了提升建模效率,得到区分度更好的特征,需要进行特征选择。特征评价数对于现有数据集的特征进行评价,进一步选取用于建模的最优特征子集。
常用有特征初选、影响评价、模型法。

特征初选即直接观察数据的分布来判断是否保留。

影响评价是对每个特征依次进行评价,把不满足要求的排除。本题可选择Pearson相关系数观察两个变量间的线性相关性。选择距离相关系数观察非线性相关系数。

模型法的思路是将要评价的所有特征加入模型中进行训练和测试,通过分析这些特征对模型的贡献程度来识别特征的重要性。常用有增益法和置换法。其中增益法主要通过收集决策树建模过程中特征的基尼(Gini)增益来评估特征的重要程度。置换法主要比较特征在置换前后,其所建模型的精度下降程度来评估特征重要性。

你可能感兴趣的:(学习杂记,机器学习,数据分析,数据挖掘)