【百面机器学习笔记——第一章 特征工程】

百面机器学习笔记——第一章 特征工程

  • 01 特征归一化
  • 02 类别型特征
  • 03 高维组合特征的处理
  • 04 特征组合
  • 07 图像数据不足时的处理方法

01 特征归一化

原因:
消除量纲带来的不同数值量级的影响,防止梯度下降过程中不同方向下降速度不同,而增加迭代次数,尽快找到最优解
方法:

  1. 线性函数归一化:将原始数据等比例缩放到[0,1]
    X n o r m = X − X m i n X m a x − X m i n X_{norm} = \frac{X-X_{min}}{X_{max}-X_{min}} Xnorm=XmaxXminXXmin
  2. 零均值归一化:将原始数据映射到均值为0,标准差为1的分布上
    z = x − μ ϵ z = \frac{x-\mu }{\epsilon} z=ϵxμ

适用范围:
通过梯度下降法求解的模型,如线性回归、逻辑回归、支持向量机、神经网络
不适用于决策树模型

02 类别型特征

常见编码方式及适用情况

  1. 序号编码:按照大小关系赋予ID,能保留大小关系,如:成绩
  2. 独热编码:不具有大小关系,如:血型
    One-hot编码时,如果类别较多,会带来问题:
    1)K邻近中,高维空间两点距离难衡量
    2)逻辑回归中,维度高,参数多,容易发生过拟合
    解决办法:
    1)可以使用稀疏向量节省空间,什么是稀疏向量
    2)可以配合特征选择降低维度。
  3. 二进制编码:利用二进制对ID进行哈希映射,并且维度小于One-hot编码

03 高维组合特征的处理

问题:
把一维离散线性特征进行两两组合,得到高维特征,从而获得更好的复杂关系拟合能力。如果维度过高,进行降维处理

04 特征组合

问题
单纯将一维特征两两组合,是非常低效的,可以使用决策树筛选特征

07 图像数据不足时的处理方法

问题:
一个模型的性能主要有两个来源:数据蕴含和先验信息。当数据不足时就需要通过更多先验进行补充。对图像来说,数据不足的主要问题是过拟合,泛化效果不佳。
解决方案:
依据作用环节,主要有如下解决方案:

  1. 基于模型结构:简化模型(非线性变为线性)、增加约束项缩小假设空间(L1,L2正则项)、集成学习、Dropout等
  2. 基于数据:数据增强(旋转、尺寸、裁剪、噪声、RGB、HSV等),对特征上采样生成样本,GAN 生成新样本
  3. 迁移学习

你可能感兴趣的:(人工智能,计算机视觉,机器学习)