吴恩达机器学习笔记(六)正则化

吴恩达机器学习笔记(六)正则化

  • 一、过拟合问题(Overfitting)
  • 二、代价函数(Cost Function)
  • 三、线性回归的正则化(Regularized Linear Regression)
  • 四、Logistic回归的正则化(Regularized Logistic Regression)

本文章是笔者根据Coursera上吴恩达教授的机器学习课程来整理的笔记。如果是初学者,建议大家首先观看吴恩达教授的课程视频,然后再来看博文的要点总结。两者一起食用,效果更佳。

一、过拟合问题(Overfitting)

下图的线性回归模型中,最左侧是欠拟合,中间是拟合效果良好,最右侧是过拟合。
吴恩达机器学习笔记(六)正则化_第1张图片
下图的Logistic回归模型中,最左侧是欠拟合,中间是拟合效果良好,最右侧是过拟合。
吴恩达机器学习笔记(六)正则化_第2张图片
解决过拟合问题的两种方法:
(1)减少特征的数量。可以通过回收懂筛选特征来完成,也可以通过模型选择算法来完成。模型选择算法将在后续为大家介绍。
(2)正则化。保留所有的特征,但是减少参数 θ \theta θ 的量级或值。当我们有很多特征,每一种特征都对预测结果有一点贡献,不舍得舍弃掉任何一个特征时,正则化会是一种很有效的方法。
吴恩达机器学习笔记(六)正则化_第3张图片

二、代价函数(Cost Function)

直观想法:如果给 θ 3 \theta_3 θ3 θ 4 \theta_4 θ4一个很大的惩罚项,如1000倍的,把这个惩罚项加入代价函数中,那么就会使 θ 3 \theta_3 θ3 θ 4 \theta_4 θ4趋于0。从而变回二次函数,避免过拟合的问题。
吴恩达机器学习笔记(六)正则化_第4张图片

让参数 θ \theta θ拥有较小的值,可以让模型更简单,降低过拟合的可能性。但是当拿到100个特征的时候,我们并不知道哪个特征是无用的,不知道让哪个特征趋于0。因此,把除 θ 0 \theta_0 θ0外的所有 θ j ( j = 1 , 2 , 3...... n ) \theta_j(j=1,2,3......n) θj(j=1,2,3......n)参数平方相加,再乘以正则化因子 λ \lambda λ,叫做正则化项。把正则化项加入代价函数中。
注意: θ 0 \theta_0 θ0不做惩罚。
吴恩达机器学习笔记(六)正则化_第5张图片

可以观察到,加入了正则化项后,原本过拟合的扭曲的函数变得更平滑一些了。
吴恩达机器学习笔记(六)正则化_第6张图片

如果 λ \lambda λ选取过大,会导致除 θ 0 \theta_0 θ0外的所有 θ \theta θ值趋于0,函数变成了一条直线。
选取合适的 λ \lambda λ很重要,在后续课程讲到多重选择时,会为大家介绍自动选择合适 λ \lambda λ的方法。
吴恩达机器学习笔记(六)正则化_第7张图片

三、线性回归的正则化(Regularized Linear Regression)

线性回归的正则化代价函数:
吴恩达机器学习笔记(六)正则化_第8张图片

使用梯度下降法最小化代价函数:(与无正则化项的式子相比,增加了紫红洋葱色的部分)
把含有 θ j \theta_j θj的项合并到一起,转换成了另外一种形式,直观上可以理解为,每次迭代都为 θ j \theta_j θj乘上一个比1稍小的数,再减去与无正则化项时相同的偏导数项。(因为 α \alpha α一般很小, m m m一般很大,所以( 1 − α λ / m 1-\alpha\lambda/m 1αλ/m)这一项比1稍小,不会小很多)
详细公式如下图:
吴恩达机器学习笔记(六)正则化_第9张图片

使用正规方程法最小化代价函数:
对于有m个样本,n个特征的数据集:
在无正则化项的线性回归的正则化解法公式的基础上,增加了下图中蓝色的部分, λ \lambda λ诚意一个 (n+1)x(n+1)维度的矩阵。该矩阵的左上角的第一个元素是0,对角线上的其余n个元素是1,不在对角线上的元素均为0。详细的数学证明很复杂,这里没有必要介绍。
如下图,当特征数量n=2时,矩阵是3x3维度的。
吴恩达机器学习笔记(六)正则化_第10张图片

正则化还可以解决矩阵的不可逆性问题。
之前讲到过,当样本数m小于特征数n时, X T X X^TX XTX矩阵不可逆,之前给出的方案是通过octave中的pinv函数求出伪逆。但是伪逆可能不是一个非常好的模型。
通过数学推导可以证明 X T X X^TX XTX加上正则化项后得到的新矩阵,一定是可逆的。因此,当使用正规方程法遇到矩阵不可逆时,可以通过加上正则化项来解决。

吴恩达机器学习笔记(六)正则化_第11张图片

四、Logistic回归的正则化(Regularized Logistic Regression)

正则化Logistic回归的代价函数:(与无正则化项的式子相比,增加了蓝色的部分)
吴恩达机器学习笔记(六)正则化_第12张图片

使用梯度下降法最小化代价函数:(这个公式与正则化线性回归的梯度下降法很像,但注意这是不同的算法,因为假设函数 h θ ( x ) h_\theta(x) hθ(x)的含义是不一样的。Logistic回归增加了sigmoid处理)
吴恩达机器学习笔记(六)正则化_第13张图片

使用更高级的优化算法来最小化代价函数:
直接调用Octave中的函数。
输入代价函数和各个偏导数的计算公式,函数返回的结果就是是代价函数最小的 θ \theta θ的取值。
吴恩达机器学习笔记(六)正则化_第14张图片

你可能感兴趣的:(机器学习笔记,吴恩达,机器学习,正则化,笔记)