机器学习:《特征工程三部曲》之一数据处理 (连续特征和离散特征)

连续型:

1.1 特征归一化:线性放缩到[-1,1],放缩到均值0,方差1.按照特征的行处理数据。目的是在于样本向量在点乘运算或者其他核函数祭祀按相似性时,拥有统一的标准。

1.2  特征标准化:

0-1 标准化:

x(标准化)=(x-最小值)/(最大值-最小值)

 按照列处理,通过求Z-score的方法,将样本的特征值转化到同一量纲下。

x(标准化)=(x-均值)/标准差

2 连续变量离散化(有监督离散方法:决策树):二值化处理 : 将细粒度的度量转化为粗粒度的度量,使得特征的差异化更大。取整: 

3  特征多项式的交互:捕获特征之间的相关性

4 数据分布的倾斜处理:

log变化: log 变化倾向与拉高那些落在较低范围内的自变量取值,压缩那些落在较高的幅度范围内的自变量的取值,log 变化能给稳定数据的方差,使得数据的分布接近正太分布并使得数据与分布的均值无关。Box_Cox 也有相似的效果,出现负数,使用常数进行偏移。

5 缺失值处理

数据补全(用0替换 ,平均数替换 ,众数替换 ,预测模型替换),删除缺失行,不处理

 

 离散型:

1 onehot 编码: 可以将离散特征扩展到欧式空间,离散特征的某个取值就对应欧式空间的某个点。特征之间的距离计算或相似度计算是非常重要的,常用的距离或者相似性计算都是在欧式空间的相似度计算,计算余弦相似性,基于的是欧式空间。onehot 会让距离的计算更加合理。

dummy encoding 哑变量编码 

label-encoding 标签编码 

count-Encoding 频数编码 (可以去量纲化,秩序,归一化) 

将分类变量替换为训练集中的计数,对线性和非线性算法都很有用,可以对异常值敏感,可以添加对数转化,适用于计数,用1替换看不见的变量,可能会发生冲突: 相同的编码,不同的变量。

Target encoding 二分类 用目标变量中的某一类的比例来编码

为每个分类变量提供唯一的数字ID,适用于非线性基于树的算法,不增加维度,

6 Hash encoding :

避免及其稀疏的数据

基于书的方法不需要进行特征的归一化,例如随机深林,bagging和boosting等,基于参数或距离的模型,都需要归一化。

1.数值特征

  • rounding
  • binning
  • scaling
  • imputation
  • interactions
  • no linear encoding
  • row statistics

2.类别特征

  • one-hot encoding
  • hash encoding
  • label encoding
  • count encoding
  • label-count encoding
  • target encoding
  • category embedding
  • Nan encoding
  • polynomial encoding
  • expansion encoding
  • consolidation encoding

你可能感兴趣的:(机器学习)