02_机器学习相关笔记——特征工程(2)

02_机器学习相关笔记——特征工程(2)

  1. 序号编码,通常用于处理类别键具有大小关系的数据。
  2. 独热编码,通常用于处理类别键不具有大小关系的数据。
  3. 当类别取值较多时选用独热编码会使得向量较为稀疏,使用向量的稀疏表示来节省空间。
  4. 高维特征可能带来的问题:(1)在k近邻算法中,高维空间中两点之间的距离很难得到有效的衡量。
  5. 高维特征可能带来的问题:(2)在逻辑回归模型中,模型参数数量会随着维度的增高而增加,容易引起过拟合问题。
  6. 高维特征可能带来的问题:(3)通常只有部分维度是对分类预测等有帮助,可以考虑配合特征选择来降低维度。
  7. 二进制编码,先用序号编码给每个类别赋予一个类别ID,将类别ID对应的二进制变作为结果。
  8. 二进制编码本质上是利用二进制对ID进行哈希映射,最终得到0/1特征向量,且维数少于独热编码,节省了存储空间。
  9. 高阶组合特征,为了提高复杂问题的拟合能力,在特征工程中经常会把一些一阶离散特征两两组合。
  10. 高维特征组合会使得简单的将离散特征组合后产生大量参数,导致无法学习获得这些参数,用k维向量表示特征可以降低参数规模

注:笔记内容来源于《百面机器学习》

你可能感兴趣的:(百面机器学习阅读笔记,人工智能)