梯度下降与最小二乘法的区别(详解)

1.共同点:

(1)本质相同。两种方法都是在给定已知数据(自变量和因变量)的前提下对因变量计算出一个假设函数,然后优化出这个假设函数的最佳参数。

(2)目标相同。两种方法都是在已知数据的框架内,使得估算值与实际值的总平方差尽量更小(事实上,在梯度下降时会更倾向于使用均方差,即总方差除以样本数,以避免损失值过大的问题。由于均方差最小的点即是总方差的最低点,因此这个变换并不影响对损失函数的优化)。

2.不同点:

(1)实现方法不同。最小二乘是通过对自变量和因变量进行数学变换求导,直接到达最低点,不需要透代(不给参数θ的值,直接求出最优θ);而梯度下降是先估计一组参数,然后按照梯度的反方向修正参数,反复迭代获取最低点(给参数θ的值,逐步得到最优θ)。

(2)结果不同。最小二乘是1(找到解)或者0(矩阵不可求逆,无解)的问题;而梯度下降则是结果是0.x(对精确解逐步逼近1)的问题。

(3)适用性不同。最小二乘只适合于损失函数相对于回归系数的偏导能直接使用数学变换求出解析解的问题,如线性回归;而梯度下降适用性更广,只要能用数值法求出损失函数在某一点的偏导数就可以用。

(4)最小二乘得到解的是全局最优解;而梯度下降得到解的有可能是局部最优解;如果损失函数是凸函数,则梯度下降得到的解就一定是全局最优解。

你可能感兴趣的:(机器学习,最小二乘法,机器学习,线性回归,算法,人工智能)