正则化(Regularization)

过拟合(overfitting)

在之前的学习中,我们已经了解了线性回归和逻辑回归的相关问题,并且学习了两种算法的假设函数和梯度下降的基本算法。但是,在算法的实际应用中,并不是特征值越多,假设函数与训练数据集拟合的越完美越好,或者说其代价函数为0(),出现这种情况会使得假设函数预测新的数据变得困难,称之为过拟合(Overfitting),过拟合如下图所示:

正则化(Regularization)_第1张图片

为了解决过拟合问题,有以下解决方案:

  1. 减少特征
  • 手动选择需要保留的特征
  • 采取模型选择算法
  1. 正则化
  • 保留所有参数,但是减少每一个参数的值
  • 当我们有很多特征而假设函数依然能够很好的工作,确保每一个特征对预测值都有所贡献。

线性回归的正则化

正则化的思想就是减少高次项的值,使得曲线平滑,因此,在线性回归算法中的代价函数可以如下表示:

以上公式中,表示正则化参数,在算法实际运行过程中,要选择合适的值,不能使其过大,否则可能会导致过拟合不能被消除,或者梯度下降算法不收敛。

  • 梯度下降算法中的正则化
    梯度下降算法中应用正则化方法如下所示

  • 正规方程法的正则化
    之前的学习中,已经学习了采用正规方程法求解参数的方法如下所示:

正规方程法的正则化算法公式如下:

其中 表示x的对角矩阵,其主对角线第一个元素为0,其余全为1.

逻辑回归算法的正则化

与线性回归算法类似,逻辑回归算法的正则化也是通过减少高次项的值,使得决策边界变得平滑,以避免出现过拟合问题,其代价函数正则化用如下公式表示:

梯度下降算法中的正则化表示如下所示:


需要注意的是:与线性回归不同的是,此时

你可能感兴趣的:(正则化(Regularization))