深度学习day01【李宏毅】

深度学习day01

  • 一、梯度下降法
    • 1.1 Adagrad
    • 1.2 Stochastic Gradient Descent
    • 1.3 Feature Scaling
  • 二、Logitstic Regression
    • 2.1 Logistic Regression为什么不用平方误差
    • 2.2 Softmax
    • 2.3 Limitation of Logistic Regression
  • 三、Deep Learning

一、梯度下降法

由于普通的梯度下降法的缺点,在驻点周围迭代步长很慢,容易达到局部最小值(此处不再介绍梯度下降法),引入了Adagrad

1.1 Adagrad

深度学习day01【李宏毅】_第1张图片

  • 整体上也会越来越慢

深度学习day01【李宏毅】_第2张图片
深度学习day01【李宏毅】_第3张图片
深度学习day01【李宏毅】_第4张图片

  • 一次微分/二次微分
    深度学习day01【李宏毅】_第5张图片
  • 其分母反映了二次微分的大小,一次微分的值平方和

1.2 Stochastic Gradient Descent

  • 随机梯度下降法

深度学习day01【李宏毅】_第6张图片

  • 每次只选择一个gradient Descent

1.3 Feature Scaling

  • 特征缩放

深度学习day01【李宏毅】_第7张图片

深度学习day01【李宏毅】_第8张图片

深度学习day01【李宏毅】_第9张图片

深度学习day01【李宏毅】_第10张图片
深度学习day01【李宏毅】_第11张图片
深度学习day01【李宏毅】_第12张图片
深度学习day01【李宏毅】_第13张图片

二、Logitstic Regression

深度学习day01【李宏毅】_第14张图片

深度学习day01【李宏毅】_第15张图片

深度学习day01【李宏毅】_第16张图片

深度学习day01【李宏毅】_第17张图片

2.1 Logistic Regression为什么不用平方误差

  • 求导、梯度下降法时不方便
    深度学习day01【李宏毅】_第18张图片
    深度学习day01【李宏毅】_第19张图片

2.2 Softmax

深度学习day01【李宏毅】_第20张图片
深度学习day01【李宏毅】_第21张图片

  • 交叉熵函数写错了

2.3 Limitation of Logistic Regression

深度学习day01【李宏毅】_第22张图片

  • 特征转换
    深度学习day01【李宏毅】_第23张图片

深度学习day01【李宏毅】_第24张图片

深度学习day01【李宏毅】_第25张图片
深度学习day01【李宏毅】_第26张图片

  • 图有问题,画反了

  • 这样就得到了Deep Learning!

深度学习day01【李宏毅】_第27张图片

三、Deep Learning

深度学习day01【李宏毅】_第28张图片

深度学习day01【李宏毅】_第29张图片
深度学习day01【李宏毅】_第30张图片

  • 向量化计算
    深度学习day01【李宏毅】_第31张图片
  • 概率大,就是哪个类
    深度学习day01【李宏毅】_第32张图片

深度学习day01【李宏毅】_第33张图片

你可能感兴趣的:(机器学习)