在现实生活中,我们需要处理的数据大部分的量纲都是不一样的,如果不做归一化的话就会会出现的问题是,不同量纲的数据在梯度下降过程中下降的速度是不一样的, 但是如果数据都是同一量纲下的数据的话,找到最优解的迭代次数会少很多,容易更快找到最优解。
所以数据需要归一化
在实际应用过程中呢并不是所有的模型都需要归一化,比如需要梯度下架的模型是比较需要
- 线性回归
- 逻辑回归
- 各种神经网络
- 支持向量机
但是决策树却不需要,这是因为数据归一化,并不能改变数据信息增益比,对决策并没有帮助。
归一化的方法:
分为两种:
- 通过线性函数的归一化
- 零均值归一化
其实就是化为标准正太分布,感觉是一个意思反正 哈哈
假设原始特征值为,标准差为
大概就是这样了,再多的我也不知道了