吴恩达机器学习入门视频笔记(一)

翻了翻笔记本,发现以前看吴恩达机器学习入门视频的笔记,拿来与大家分享一下,也当作自己的一次复习。笔记内容有跳跃性,也很琐碎,不具有系统性,如果大家要系统性学习可以去对应网站或者b站上自行搜索。


首先,机器学习分为有监督学习和无监督学习。有监督学习中有数据以及标签,学习到一个可以将数据映射到标签的函数,标签可以有很多形式。无监督学习的数据是没有任何标签的。

有监督学习可以根据数据是连续或者离散分为回归(连续标签)和分类(离散标签),典型的无监督学习有聚类和降维等。


梯度下降:\Theta = \Theta - \alpha * \delta f / \delta \Theta

梯度下降是变参数,参数此时为自变量,也就是通过改变自变量的值来寻找局部最小值。虽然学习率α一定,但每次自变量变动的值不是一定的,因为每走一步偏导都会变化一次。

θ再更新时需要同步更新,即一次将所有θ需要变动的量都算出来,然后同时更新所有θ,不能算一个更新一个,因为这样的话再计算后一个θ更新值时会用到已经更新过的上一个θ的值。

如果α(步长)过大可能会造成梯度下降得到相反的效果。

特征缩放(数据归一化)可以使梯度下降算法收敛更快(参考视频内容,老师讲的很好)。特征缩放同样适用于logistic回归,使其梯度下降收敛更快。

除了普通的批量梯度下降法(BGD),随机梯度下降法(SGD),还有共轭梯度法(CG),BFGS法,L-BFGS法等等。CG,BFGS法,L-BFGS法等不需要指定步长参数α,并且收敛速度快于BGD算法。


如果特征过多(即x数量过多),可能会造成没有足够的数据去训练出一个很好的模型。函数过大,变量太多,而数据不够,不能很好的约束,造成模型再训练集上表现很好,再测试集上表现不佳的状况。这种情况我们称之为过拟合(泛化能力差)。

解决过拟合的方法:

① 减少特征数量(模型选择算法)

②正则化(减小参数θj的量级)

因为无法实现得知那个参数应该被正则化,因此一般会再惩罚函数中加入惩罚项(正则化项)来缩小所有参数的量级。常数项θ0也可以加入惩罚项,不加只是约定俗成,加了也没什么问题。

惩罚项中有参数λ,此参数是为了调整损失函数和正则化项的权重,若λ过大,则θ会被训练得过小,接近于0,此时函数    ,差不多为一条直线,导致训练效果很差。


内容不具有系统性,主要是自己再复习一下,大家想系统性学习的还是去看视频吧。

你可能感兴趣的:(吴恩达视频笔记,机器学习,算法,人工智能)