特征处理方法

1. 处理计数

  1.1 二值化

  1.2 区间量化(分箱)

    固定宽度分箱:通过固定宽度分箱,每个分箱中会包含一个具体范围内的数值。这些范围可以人工定制,也可以通过自动分段来生成,它们可以是线性的、也可以是指数性的。

    分位数分箱:(分位数是可以将数据分为相等的诺干份数的值。)例如中位数、四分位数、十分位数。

  1.3 对数变换

    对数函数可以对大数值的范围进行压缩,对小数值的范围进行扩展。可以有效解决重尾分布,使数据分布更加均匀。

  1.4 特征缩放/归一化

    1.4.1 min-max缩放

     

    1.4.2 特征标准化/方差缩放

     

    1.4.3 范数归一化

     

  1.5 特征交叉

2. 特征选择

  2.1 过滤法

    过滤法比较简单,它按照特征的发散性或者相关性指标来对各个特征进行评分,设定评分阈值或者选择阈值的个数,选择合适特征。常用的方法包括方差筛选、相关系数、假设检验(卡方检验)、互信息。

  2.2 包装法

    根据目标函数,通常是预测效果评分,每次选择部分特征或者排除部分特征。常用的方法包括递归消除特征法。

  2.3 嵌入法

    嵌入法先使用某些机器学习的算法和模型进行训练,得到各个特征的权重系数,根据权重系数从大到小来选择特征。常用的方法包括L1正则化、L2正则化、决策树等。

你可能感兴趣的:(特征处理方法)