特征工程(归一化、特征编码、特征组合、数据扩充)

特征工程

    • 归一化
    • 特征编码
    • 组合特征
    • 数据扩充

归一化

  1. 为什么要归一化
    直观操作是将各维特征转到同一个量级,平均对学习器的权重,同时还能加快基于梯度下降算法的收敛速度
  2. 归一化适用范围
    归一化在基于梯度下降的算法(SVM, DNNs)中能起到以上作用,不适用于决策树模型,决策树学习基于信息增益
  3. 常见归一化方法
  • 线性函数归一化 f n o r m = ( f − f m i n ) / ( f m a x − f m i n ) f_{norm}=(f-f_{min})/(f_{max}-f_{min}) fnorm=(ffmin)/(fmaxfmin)
  • 零均值归一化 f n o r m = ( f − f m e a n ) / σ f_{norm}=(f-f_{mean})/{\sigma} fnorm=(ffmean)/σ

特征编码

  1. 对什么编码
    对于一些字符串形式的类别数据,无法直接输入,需要数字化,即编码
  2. 适用范围
    除决策树外的大多数模型,决策树能直接处理字符串形式的输入
  3. 常见方法
  • 序号编码 高中低 —> 0,1,2
  • 独热编码 [ 0 , 0 , 1 , 0 ] [0, 0, 1, 0] [0,0,1,0] 只有一维为1 —> 不够稀疏,维度过高可能引起过拟合
  • 二进制编码 HashMap key—>value

组合特征

将和问题相关的特征组合在为一个向量,即特征组合,稀疏丰富的描述特征可以减少参数、抑制过拟合

  • 基于决策树的组合特征寻找方法,例如GBDT
  • 其他等等

数据扩充

  1. 需求背景
    模型能提供的信息一般来源于 数据中蕴含的信息 和 模型行程过程中人提供的先验信息。当原始数据量不足时,就需要将更多先验信息用在数据(数据扩充)或模型上(设定特地结构、约束)
    数据量不足对图像任务的直接表现是过拟合,根据上述分析大致有两种应对方法:
  • 基于模型的:简化模型、增加约束项(如L1/L2正则项)、集成学习、dropout超参数等
  • 基于数据的:根据先验,在保证特定信息的前提下数据扩充
  1. 数据扩充方法
  • 图像空间内常见旋转、翻转、加噪声扰动、颜色变换等
  • 特征空间内数据扩充或上采样技术
  • 生成模型合成新样本
  • 迁移学习

你可能感兴趣的:(机器学习)