特征工程——特征归一化

在现实生活中,我们需要处理的数据大部分的量纲都是不一样的,如果不做归一化的话就会会出现的问题是,不同量纲的数据在梯度下降过程中下降的速度是不一样的, 但是如果数据都是同一量纲下的数据的话,找到最优解的迭代次数会少很多,容易更快找到最优解。

所以数据需要归一化

在实际应用过程中呢并不是所有的模型都需要归一化,比如需要梯度下架的模型是比较需要

  • 线性回归
  • 逻辑回归
  • 各种神经网络
  • 支持向量机

但是决策树却不需要,这是因为数据归一化,并不能改变数据信息增益比,对决策并没有帮助。

归一化的方法:

分为两种:

  • 通过线性函数的归一化

  • 零均值归一化

其实就是化为标准正太分布,感觉是一个意思反正 哈哈
假设原始特征值为,标准差为

大概就是这样了,再多的我也不知道了

你可能感兴趣的:(特征工程——特征归一化)