机器学习——梯度下降算法

对机器学习感兴趣,上网易公开课听吴恩达得机器学习课程,第二堂课得梯度下降就不是特别懂

度娘一下,发现一篇博客,阅之,毛瑟顿开,整理如下、

原博地址http://www.cnblogs.com/LeftNotEasy/archive/2010/12/05/mathmatic_in_machine_learning_1_regression_and_gradient_descent.html

引入第一个概念拟合函数


这个函数说白了就是ax+by+c,只不过这里x,y记为x1,x2、a,b,c记为theta0~2

其中x1,x2…xn是一组特征值,是数据调研得到的一组数据,所以这里其实重要得是theta,中间的HthetaX

令x1=1则有了下式


这里得thetaT其实就是theta得一组向量,也就对应了吴教授视频得取theta=0向量那一段

注意这个公式里X是大写的X而不是小写的x1,x2其实也就是泛指一组数据而不是一个具体得维度

那么又怎么确定这个h(x)也就是theta向量取得nice呢?很自然得引入了损失函数

公式,因为是取一组奈斯得theta值,所以参数从x变为了theta,设为J

叠加符号里m为数据得组数


梯度下降得图形里是各种漂亮得弧面型

其中由于将其画在二维平面上,因此智能展示三个维度的立体坐标系

注意看的话会发现其纵轴也就是Z轴是损失函数J,而两个横轴均为theta

所以图形上的一个点也就对应着给定一组theta,即给定一个向量theta后的J的值。

因为我们的目的是使J值尽可能的小,其充分必要条件就是在梯度下降的“山脉”图里的最低点,也就是等高线里的最低点

机器学习——梯度下降算法_第1张图片


视频里对应上图时间点是这样的描述“梯度下降算法经过第一次迭代之后,由于改变了参数的空间,所以一次梯度下降之后会得到这样的结果”

那么问题自然而然的就回归到在给定坐标系的一组值后,一次次迭代找到最奈斯的theta值。


对应房屋售价估算场景里。

这是给定初始theta的图

机器学习——梯度下降算法_第2张图片


而经过一次迭代之后,也就是第一次更新theta的值,J的函数值发生了变化

机器学习——梯度下降算法_第3张图片

经过n次迭代之后,也就得到了最奈斯的J值



至于为啥梯度下降可以得到最奈斯的值,假如theta只有一个维度,那么J(theta)是一个二次函数,

同时J(theta)的表达式中偏导数符号变成了导数符号,而换到二次函数上时,某一点的到数值是该点的切线值,沿着切线可以递归到函数的极小值点

你可能感兴趣的:(机器学习)