特征工程-特征处理(二)

特征处理

特征工程-特征处理(二)_第1张图片

二、时间特征处理

将原本的具体时间拆分为年月日等多个特征变量,同时可以引入在一天的某个时间段,或者是当天是否为节假日等其他条件,还可以进一步结合其他特征,进行前后一个时间段或是多个时间段时间的特征差值。

dt.shift(periods=1, freq=None, axis=0)

连续型变量处理(一)

单特征

  1. 归一化和标准化
    数据的归一化和标准化是特征缩放的方法。不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据归一化/标准化处理,以解决数据指标之间的可比性。原始数据经过数据归一化/标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
    • 归一化:
    x_{new} = \frac{x - x_{min}}{x_{max} - x_{min}} 
    
    • 标准化:
      这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:
    x_{new} = \frac{x - \mu}{\sigma} 
    

其中 μ \mu μ是样本数据的均值(mean), σ \sigma σ是样本数据的标准差(std)。此外,标准化后的数据保持异常值中的有用信息,使得算法对异常值不太敏感,这一点归一化就无法保证。

  1. 离散化
    特征离散化是指将原本连续的特征或变量划分为离散型变量的过程。
  • 无监督离散
    • 等宽分箱:按照相同的宽度将数据进行分成若干等分;
    • 等频分箱:将数据分为若干等分;
    • 聚类分箱:k均值聚类法将观测值聚为k类;
  • 有监督离散
    • 卡方分箱:通过计算数值之间的卡方值,将数据按照设定的卡方值阈值进行分类;
    • 最小熵分箱:最小熵分箱将待分箱特征的所有取值都放到一个箱体里,然后依据设定的最小熵原则进行箱体分裂。
  1. 数据变换
    • log:将所有数据进行log变换
    • 指数:将所有指数进行指数变换
    • box-cox变换:Box-Cox变换的主要特点是引入一个参数,通过数据本身估计该参数进而确定应采取的数据变换形式,Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性

你可能感兴趣的:(特征工程,算法,机器学习,人工智能)