#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)

DAY 7

多特征

之前的视频是关于一个特征变量的(房屋面积对应房价)
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第1张图片
现在除了房屋面积还有诸如卧室数量、楼层数量等一系列的影响因素
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第2张图片
相较于传统的假设,现在的假设式如下:
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第3张图片

多元线性回归假设模型:

#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第4张图片

多元梯度下降算法

#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第5张图片
更新后的代码如下:
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第6张图片

DAY 8

特征缩放

(出现这种原因是因为两个值(x、y)差别太大(一个是在0-2000,一个是在0-5))
以1个特征来举例,如果椭圆越狭长,那么梯度下降时间就会越长
而如果我们将其进行一个缩放(除以某个数),那么其图像就更有利于梯度下降,所耗时长就会短一些:
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第7张图片
将其缩放至-1~1左右为宜
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第8张图片

均值归一化

#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第9张图片
特征缩放不需要多精确 只是让梯度下降运行得更加快一点。

多元梯度下降法——学习率

在本章中我们将探讨 “调试” 是什么,以及一些小技巧来 确保梯度下降是正常工作的 ,还有如何选择学习率α
梯度下降法所做的事情就是找到一个θ值,并且希望它能最小化代价函数J(θ)
通过观察图像,结合迭代次数判断是否收敛:
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第10张图片
如果出现下述图像,说明学习率α取值过大,算法未能很好收敛:
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第11张图片
如何选择合适的学习率α(找准头尾,每次以3的倍数左右递增)
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第12张图片

DAY 8

特征和多项式回归

换个角度思考问题,模型会变得更加高效:
不用宽度和深度去描述房屋,专用宽度和深度的乘积,也就是占地面积去衡量房屋的价格
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第13张图片
与选择特征的想法密切相关的一个概念被称为多项式回归
但是这个要注意特征缩放(尤其是相差太多的情况)
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第14张图片
看图不使用2次方程是因为2次最终会降下来,和实际情况不符
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第15张图片

正规方程(区别于迭代方法的直接方法)

梯度下降法是一步一步直至收敛至最优,正规方程可直接一步得到最优值
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第16张图片
如用梯度下降法,需要求出每一个点的倒数值并令其等于0,才能找到最小(即最优)值点
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第17张图片
正规方程解决办法如下:
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第18张图片
一般情况:
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第19张图片
采用正规方程不需要特征缩放
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第20张图片
何时使用梯度下降、何时使用正规方程?
数目不大采用正规方程,数目过大(超过1w)采用梯度下降
#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第21张图片
总的来说正规方程在线性回归中采用的要比梯度下降更为频繁。

DAY 9

正规方程在矩阵不可逆情况下的解决方法

矩阵不可逆的原因可能是因为:
① 数据有冗余(比如1列是房屋英尺,1列是国际单位)
② 算法有很多特征(具体的说,在m小于或等于n的时候,你有m=10个训练样本,但你有n=100个特征数量,你要找到合适的参数向量θ,它是n+1维向量)

#吴恩达· 机器学习笔记(④ 多元梯度下降及正规方程)_第22张图片

一般就从上述两个方面出发来思考矩阵不可逆的情况(拒绝线性相关 or 删除多余特征,或考虑正则化的方法 )

总结

基本就是这样,浅尝一下吧

你可能感兴趣的:(吴恩达机器学习,机器学习,人工智能,深度学习)