01_机器学习相关笔记——特征工程(1)

01_机器学习相关笔记——特征工程(1)

  1. 没有充足的数据、合适的特征,再强大的模型结构也无法得到满意的输出。(Garbage in, garbage out)
  2. 对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化则是逐步接近这个上限。
  3. 特征工程,对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。(特征工程是表示和展现数据的过程。在实际工作中,旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系)
  4. 特征归一化,消除数据特征之间量纲的影响,使得不同指标之间具有可比性。(模型结果会倾向于数值差别较大的题中特征)
  5. 数值类型的特征归一化方法:线性函数归一化、零均值归一化。
  6. 线性函数归一化,对原始数据进行线性变换,使得结果映射到0-1的范围,实现对原始数据的等比缩放。Xnorm = (X - Xmin) / (Xmax - Xmin)
  7. 零均值归一化,将原始数据映射到均值为0,标准差为1的分布上,z = (x - µ) / σ。μ为均值,σ为标准差。x - μ可以使得原始数据x关于原点对称,除以σ会约束原始数据在各个维度上的值在相同的区间内。(方差为标准差的平方,方差表示随机变量与均值的偏离程度,因此偏离大的会除以较大的数值,偏离小的会除以较小的数值,使得原始数据在各个维度上的值在相同的区间内)
  8. 数值型特征归一化的重要性,假设有两个不同取值范围的数值型特征,在学习速率相同的情况下,两种数值类型的更新速度会有差异,导致需要较多的迭代更新才能找到较为合适的解,如将两种数值类型归一化到相同的数值区间后,更新速度更为一致,可以经过较少的迭代更新就可以找到较为合适的解。
  9. 类别型特征,只在有限选项内取值的特征。
    10.处理类别型特征的方法,序号编码、独热编码、二进制编码

你可能感兴趣的:(百面机器学习阅读笔记,人工智能)