特征预处理和特征生成 (一)数字特征

数字特征

1,特征的预处理

  • Scaling
  • outliers
  • rank
  • 亚线性处理

(1)Scaling预处理

  • To [0,1]:MinMaxScaler()
  • To mean=0,std=1:StandardScaler()

(2)去除outliers

  • 将一些特征的边缘值去掉,如下所示。
    特征预处理和特征生成 (一)数字特征_第1张图片
    • 使用rankdata预处理:将特征值转换为对应排序后的索引,这种方法比第一种方法简便,如下所示。
      特征预处理和特征生成 (一)数字特征_第2张图片

(3)亚线性处理

亚线性处理主要是将一些数值比较大的特征的影响稍微减弱一些。

  • np.log(1+x)
  • np.sqrt(1+2/3)

2,特征生成

主要方法有:

  • 先验知识
  • 探索性数据分析

下面主要说一下利用先验知识来生成新特征。

(1)加入一些组合特征

  • 加性特征:几个基本特征相加。
  • 乘性特征:几个基本特征相乘。例如:有长有宽,你可以生成一个面积的特征。
  • 除性特征:几个基本特征相除。例如:有房子价格,面积,你可以生成一个单位面积价格的特征。

(2)加入一些创新性特征

例如将价格的小数部分作为一个新特征,可以理解为各个价格之间的区别性特征。小数部分为0.99的价格的商品可能卖的更好!
特征预处理和特征生成 (一)数字特征_第3张图片

3,总结

特征预处理和特征生成 (一)数字特征_第4张图片

你可能感兴趣的:(数据处理与挖掘)