第2章 单变量&多变量线性回归

单变量线性回归

image.png

一元线性回归 假设函数h(hypothesis)

cost function(平方误差)代价函数

梯度下降法 Gradient descent

用梯度下降法最小化代价函数J

直观理解

梯度下降算法描述 α为学习率(即一次迈步子的大小(控制着更新的幅度)、导数项、同步更新)

线性回归算法
梯度下降法,偏导数带入

多变量线性回归 multivariate linear regression

多元线性回归(写成了θ与X的內积形式)

梯度下降
多元线性回归模型

特征缩放与均值归一化都只是为了让梯度下降能够运行得更快一点而已,并不需要十分精确。

特征缩放 Feature Scaling

特征缩放

特征缩放

均值归一化

学习率α的选择问题

  • J(θ)不随着迭代减小 -->α过大,选择更小的α值
  • J(θ)随着迭代大小交替变化 -->α过大,选择更小的α值
  • 通常尝试一系列不同的α值,
    0.001,0.003,0.01,0.03,0.1,0.3,1,…… -->按≈3倍增长

特征和多项式回归

特征的选取

(另一种)线性回归方法 - 正规方程Gradient Descent

最小二乘法??

梯度下降法与正规方程法对比

如果矩阵

XTX

不可逆,通常原因是:

  • 有冗余的特征 (如,相同的特征出现了两次)
  • 过多的特征(过少的样本数据)

你可能感兴趣的:(第2章 单变量&多变量线性回归)