机器学习(李宏毅)第三天

梯度下降

 

机器学习(李宏毅)第三天_第1张图片

\theta让L越小越好 

机器学习(李宏毅)第三天_第2张图片

 loss等高线法线方向就是斜率

机器学习(李宏毅)第三天_第3张图片

第一点:调整学习曲线

机器学习(李宏毅)第三天_第4张图片 超过三维,loss曲线无法正常可视化

参数个数要刚刚好才行

机器学习(李宏毅)第三天_第5张图片

● 流行且简单的想法:每隔几个时期就降低一些因素的学习率。

        ●一开始,我们离目的地很远,所以我们使用较大的学习率

        ●经过几个时期,我们已经接近目的地,所以我们降低了学习率

●学习率不能一刀切

        ●给不同的参数不同的学习率

机器学习(李宏毅)第三天_第6张图片

 将每个参数的学习速率除以其先前导数的均方根

每个参数都有不同的learning rate,结果取决于参数

g^{t}:loss函数对w的偏微分,即斜率

\delta ^{t}:参数w过去所有微分值的均方根

\eta ^{t}:取决于时间的参数

机器学习(李宏毅)第三天_第7张图片

 算出\delta ^{t}

机器学习(李宏毅)第三天_第8张图片 算出机器学习(李宏毅)第三天_第9张图片为简化learning rate

机器学习(李宏毅)第三天_第10张图片

 在vanilla梯度下降中,斜率越大,参数变化快,

在adagrad中,分子分母都有斜率,有矛盾

机器学习(李宏毅)第三天_第11张图片

  分母的g是为了造成反差机器学习(李宏毅)第三天_第12张图片

单变量情况下 导数越大 离最低点越远机器学习(李宏毅)第三天_第13张图片”较大的一阶导数意味着远离最小值“在没考虑跨参数才成立

机器学习(李宏毅)第三天_第14张图片

机器学习(李宏毅)第三天_第15张图片 用一阶微分除以二阶微分才能显示该点和最低点的真正距离 

机器学习(李宏毅)第三天_第16张图片 二次微分开口平滑,一次微分小

二次微分开口尖,一次微分大

机器学习(李宏毅)第三天_第17张图片

第二点 :随机梯度下降法

机器学习(李宏毅)第三天_第18张图片随机梯度下降只要一个example 

机器学习(李宏毅)第三天_第19张图片 一个扫描所有参数后更新,一个每次扫描参数都更新

机器学习(李宏毅)第三天_第20张图片

第三点:变量缩放 

机器学习(李宏毅)第三天_第21张图片

让不同变量有相同尺度机器学习(李宏毅)第三天_第22张图片左: w1对loss的影响小,故曲线平滑,w2影响大,曲线陡峭

梯度变化大,feature scaling效率低

右:w1和w2接近,则loss曲线接近圆

梯度变化小,feature scaling效率高

机器学习(李宏毅)第三天_第23张图片 对每个维度的i都算平均值m_{i}和标准差\delta _{i}

所有维度的平均值为0,方差均为1

机器学习(李宏毅)第三天_第24张图片 

机器学习(李宏毅)第三天_第25张图片每次更新参数时,我们都会得到使L(θ )更小的θ 

机器学习(李宏毅)第三天_第26张图片 

机器学习(李宏毅)第三天_第27张图片 给定一个点,我们可以很容易地找到附近值最小的点。如何在红圈内找到最小的参数?

机器学习(李宏毅)第三天_第28张图片泰勒级数:设h(x)是围绕X=Xo的任意无穷可微函数。 X接近Xo可简化

机器学习(李宏毅)第三天_第29张图片 

机器学习(李宏毅)第三天_第30张图片 x,y接近x0,y0时可以只留一次项

机器学习(李宏毅)第三天_第31张图片 

机器学习(李宏毅)第三天_第32张图片 

机器学习(李宏毅)第三天_第33张图片 向量[\Delta \Theta _{1},\Delta \Theta _{2}]与[u,v]方向相反时L(θ)最小

机器学习(李宏毅)第三天_第34张图片 求θ1和θ2,得出圆中L(θ)的最小值

如果红色圆圈(learning rate)不够小,则不满意

你可以考虑二阶项,例如牛顿法

机器学习(李宏毅)第三天_第35张图片 

机器学习(李宏毅)第三天_第36张图片 梯度下降会卡在局部极小值,还会卡在鞍点,因为微分值为零,高原处的微分近似为零,也会卡

 

你可能感兴趣的:(人工智能,机器学习,深度学习)