机器学习教程篇1 -- 线性回归(下)梯度下降法

机器学习 -- 线性回归

  • 一、梯度下降法
    • 1、概念
    • 2、对比分析
      • 梯度下降法和最小二乘法
    • 3、代码

“故不积跬步,无以至千里;不积小流,无以成江海”
线性回归的第二部分,梯度下降法

一、梯度下降法

1、概念

    在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一。这是一种很重要的优化方法,需要进行好好的理解,后续的深度学习中常常用用到类似的思想,像随机梯度下降(SGD)。
    前面的最小二乘法,一般适用于一元的线性方程,得出一条确定的直线,对于多元的方程,往往采用梯度下降的方式,去近似得到近似解。
    首先,你得知道梯度的概念,在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。如f(x,y),其梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)。梯度向量的几何意义,就是代表了函数变化最快的方向。
    即沿着梯度向量的方向,就是函数增加最快的方向,更容易找到函数的最大值。 这是整个梯度下降法的基本思想。
机器学习教程篇1 -- 线性回归(下)梯度下降法_第1张图片
            图片来自互联网上
    从公式出发,∂J(θ)/∂θ是我们要求出来的梯度,表示沿着梯度向量的方向,更加容易找到函数的最大值,那么反过来,-∂J(θ)/∂θ表示表示沿着梯度向量的方向,更加容易找到函数的最小值。
机器学习教程篇1 -- 线性回归(下)梯度下降法_第2张图片
            图片来自互联网上

2、对比分析

梯度下降法和最小二乘法

    这两种方法都是在给定的数据下使得损失函数最小,这里主要分析它们的区别。
    损失函数:梯度下降可以选取其他损失函数,而最小二乘一定是平方损失函数,找到的一定是全局的最小值,但是有的函数的没解的。
    实现方法:梯度下降是一种迭代法,从图片也可看出是一种趋近的方式,找到的一般是局部最小。只有在目标函数是凸函数时才是全局最小。

3、代码

###0. 引入依赖
import numpy as np
import matplotlib.pyplot as plt

### 1. 导入数据(data.csv)
points = np.genfromtxt('data.csv', delimiter=',')

points[0,0]

# 提取points中的两列数据,分别作为x,y
x = points[:, 0]
y = points[:, 1]

# 用plt画出散点图
plt.scatter(x, y)
plt.show()

###2. 定义损失函数
# 损失函数是系数的函数,另外还要传入数据的x,y
def compute_cost(w, b, points):
    total_cost = 0
    M = len(points)
    
    # 逐点计算平方损失误差,然后求平均数
    for i in range(M):
        x = points[i, 0]
        y = points[i, 1]
        total_cost += ( y - w * x - b ) ** 2
    
    return total_cost/M

###3. 定义模型的超参数 前面几步基本是一样的,是一些常规的设置
alpha = 0.0001
initial_w = 0
initial_b = 0
num_iter = 10

###4. 定义核心梯度下降算法函数
def grad_desc(points, initial_w, initial_b, alpha, num_iter):
    w = initial_w
    b = initial_b
    # 定义一个list保存所有的损失函数值,用来显示下降的过程
    cost_list = []
    
    for i in range(num_iter):
        cost_list.append( compute_cost(w, b, points) )
        w, b = step_grad_desc( w, b, alpha, points )
    
    return [w, b, cost_list]

def step_grad_desc( current_w, current_b, alpha, points ):
    sum_grad_w = 0
    sum_grad_b = 0
    M = len(points)
    
    # 对每个点,代入公式求和
    for i in range(M):
        x = points[i, 0]
        y = points[i, 1]
        sum_grad_w += ( current_w * x + current_b - y ) * x
        sum_grad_b += current_w * x + current_b - y
    
    # 用公式求当前梯度
    grad_w = 2/M * sum_grad_w
    grad_b = 2/M * sum_grad_b
    
    # 梯度下降,更新当前的w和b
    updated_w = current_w - alpha * grad_w
    updated_b = current_b - alpha * grad_b
    
    return updated_w, updated_b

###5. 测试:运行梯度下降算法计算最优的w和b
w, b, cost_list = grad_desc( points, initial_w, initial_b, alpha, num_iter )

print("w is: ", w)
print("b is: ", b)

cost = compute_cost(w, b, points)

print("cost is: ", cost)

plt.plot(cost_list)
plt.show()

机器学习教程篇1 -- 线性回归(下)梯度下降法_第3张图片

### 6. 画出拟合曲线
plt.scatter(x, y)
# 针对每一个x,计算出预测的y值
pred_y = w * x + b

plt.plot(x, pred_y, c='r')
plt.show()

机器学习教程篇1 -- 线性回归(下)梯度下降法_第4张图片
    我的guihub:https://github.com/BZQLin/Linear-regression

你可能感兴趣的:(机器学习,机器学习,算法)