梯度下降

原理

机器学习就是定义一个f(x),找到f(x)的最佳参数,让的过程。那么如何找到这个最佳参数呢?

梯度学习就是应用最广泛的一种方法。

为什么需要梯度下降

每个模型都有自己的损失函数,训练一个模型的过程,就是找到使损失函数最小的最佳参数的过程。在简单的线性回归中,我们通过最小二乘法来求解参数;但是一般损失函数都是比较复杂的,很难通过求解得到。这时候,我们就可以通过梯度下降去求解。

梯度下降算法作为一个聪明很多的算法,抓住了参数与损失值之间的导数,也就是能够计算梯度(gradient),通过导数告诉我们此时此刻某参数应该朝什么方向,以怎样的速度运动,能安全高效降低损失值,朝最小损失值靠拢

什么是梯度

多元函数的导数就是梯度,对每个变量进行微分,然后用逗号分隔,因此梯度是一个向量,代表了下降的方向。

假设有个二元函数,求偏导为

那么在点(1,2),梯度

在单变量函数中,梯度代表函数的微分,代表着函数在某个点的斜率;

对于多变量函数,梯度代表是一个向量,代表在给定点上升最快的方向

梯度指向误差值增加最快的方向。我们的目标是找到损失函数(也就是误差)最小对应的参数,因此我们需要沿着反梯度的方向进行搜索。

理解梯度下降

梯度下降就是从群山中山顶找一条最短的路走到山谷最低的地方。

一个人被困在山上,需要从山顶到山谷。但此时雾很大,看不清下山的路径。他必须利用自己周围的信息去找到下山的路径。这个时候,他就可以利用梯度下降算法来帮助自己下山。具体来说就是,以他当前的所处的位置为基准,随机选择一个方向,然后每次迈步都选择最陡的方向。然后每走一段距离,都反复采用同一个方法:如果发现脚下的路是下坡,就顺着最陡的方向走一步,如果发现脚下的路是上坡,就逆着方向走一步,最后就能成功的抵达山谷。

image.png

从数学的角度出发,针对损失函数L,可以证明按照负梯度的方向移动,损失函数最终能够达到一个最小值。

那么我们就可以得到损失函数值(也就是下一步的落脚点)的迭代公式:

针对于上述公式,有一些常见的问题:

为什么要梯度要乘以一个负号?

我们已经知道:梯度的方向就是损失函数值在此点上升最快的方向,是损失增大的区域,而我们要使损失最小,因此就要逆着梯度方向走,自然就是负的梯度的方向,所以此处需要加上负号

关于参数 :

我们已经知道,梯度对应的是下山的方向,而参数 对应的是步伐的长度。在学术上,我们称之为“学习率”(learning rate),是模型训练时的一个很重要的超参数,能直接影响算法的正确性和效率

  • 首先,学习率不能太大。因此从数学角度上来说,一阶泰勒公式只是一个近似的公式,只有在学习率很小,也就是很小时才成立。并且从直观上来说,如果学习率太大,那么有可能会“迈过”最低点,从而发生“摇摆”的现象(不收敛),无法得到最低点
  • 其次,学习率又不能太小。如果太小,会导致每次迭代时,参数几乎不变化,收敛学习速度变慢,使得算法的效率降低,需要很长时间才能达到最低点。

缺点:

梯度算法只能达到局部最优解,不是全局最优解。

那么对应的解决方案如下:首先随机产生多个初始参数集,即多组;然后分别对每个初始参数集使用梯度下降法,直到函数值收敛于某个值;最后从这些值中找出最小值,这个找到的最小值被当作函数的最小值。当然这种方式不一定能找到全局最优解,但是起码能找到较好的。

对于梯度下降来说,初始点的位置,也是一个超参数。

线性回归梯度下降代码

def fit_gd(self, X_train, y_train, eta=0.01, n_iters=1e4):
    """根据训练数据集X_train, y_train, 使用梯度下降法训练Linear Regression模型"""
    assert X_train.shape[0] == y_train.shape[0], \
        "the size of X_train must be equal to the size of y_train"

    def J(theta, X_b, y):
        try:
            return np.sum((y - X_b.dot(theta)) ** 2) / len(y)
        except:
            return float('inf')
        
    def dJ(theta, X_b, y):
        return X_b.T.dot(X_b.dot(theta) - y) * 2. / len(y)

    def gradient_descent(X_b, y, initial_theta, eta, n_iters=1e4, epsilon=1e-8):

        theta = initial_theta
        cur_iter = 0

        while cur_iter < n_iters:
            gradient = dJ(theta, X_b, y)
            last_theta = theta
            theta = theta - eta * gradient
            if (abs(J(theta, X_b, y) - J(last_theta, X_b, y)) < epsilon):
                break

            cur_iter += 1

        return theta

    X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
    initial_theta = np.zeros(X_b.shape[1])
    self._theta = gradient_descent(X_b, y_train, initial_theta, eta, n_iters)

    self.intercept_ = self._theta[0]
    self.coef_ = self._theta[1:]

    return self

然后使用向量化的方式编写代码,但是发现在真实数据中效果比较差,这是因为数据的规模不一样,因此在梯度下降之前需要使用归一化。

你可能感兴趣的:(梯度下降)