梯度下降算法中的优化途径

特征缩放:

特征缩放:特征缩放是用来标准化数据特征的范围。

特征缩放还可以使机器学习算法工作的更好。
比如在K近邻算法中,分类器主要是计算两点之间的欧几里得距离,如果一个特征比其它的特征有更大的范围值,那么距离将会被这个特征值所主导。
在梯度下降法中,当某个特征值较大的时候会出现类似于 图一的代价函数轮廓图:

梯度下降算法中的优化途径_第1张图片
图一.png

这样的情况下,梯度下降的过程中会来回震荡,使得需要更多次的迭代才能到达局部最优点。
而如果对特征进行缩放(Feature Scaling)那么,迭代过程就可以像图二一样,更为快速的收敛。

梯度下降算法中的优化途径_第2张图片
图二.png

因此每个特征应该被归一化,比如将取值范围处理为0到1之间。

特征缩放的一些方法

调节比例(Rescaling)

这种方法是将数据的特征缩放到[0,1]或[-1,1]之间。缩放到什么范围取决于数据的性质。对于这种方法的公式如下:

梯度下降算法中的优化途径_第3张图片
公式1.png
0均值标准化(Z-score standardization)

0均值归一化方法将原始数据集归一化为均值为0、方差1的数据集
公式如下:


均值标准化.png

μ为x均值
σ为标准差也被称为标准偏差


标准差.png
均值归一化(Mean normalization)

其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
S = Xmax - Xmin


梯度下降算法中的优化途径_第4张图片
均值归一化.png

你可能感兴趣的:(梯度下降算法中的优化途径)