Lecture 1 - Regression

  1. 梯度下降中学习率为负数,因为如果是负梯度(下降)则横坐标需右移,正梯度(上升)横坐标需左移.
Lecture 1 - Regression_第1张图片
  1. 正则化将特征前加入一个很大的参数从而使对应特征所占权重变小, 同时又能保留所有特征, 使得特征的变化过大时对输出预测影响减小, 从而得到更平滑的预测曲线, 平滑的曲线对噪声不敏感.

    有时需要减小代价函数中(例子中是线性回归的代价函数)所有的参数值,因为我们并不知道是哪一个或哪几个要去缩小。

    顺便说一下,按照惯例,我们没有去惩罚 θ0,因此 θ0 的值是大的。这就是一个约定从 1 到 n 的求和,而不是从 0 到 n 的求和。

    Lecture 1 - Regression_第2张图片

  1. 下面的这项就是一个正则化项
Lecture 1 - Regression_第3张图片

并且 λ 在这里我们称做正则化参数。

λ 要做的就是控制在两个不同的目标中的平衡关系。

  • 第一个目标就是我们想要训练,使假设更好地拟合训练数据。我们希望假设能够很好的适应训练集。

  • 而第二个目标是我们想要保持参数值较小。(通过正则化项)

不加b是因为不考虑bias, bias对曲线平滑程度无影响.

  1. 当λ过大时, 会更多地考虑w本来的值, 而减少考虑error, 从而error越大. 当λ极大时, 相当于只考虑θ0, θ1n都是极小值, 则预测曲线成为水平直线.

  2. w和b要有不同的学习率, 否则无法收敛到最优解.


    Lecture 1 - Regression_第4张图片
Lecture 1 - Regression_第5张图片

你可能感兴趣的:(Lecture 1 - Regression)