[Machine Learning] 梯度下降(BGD)、随机梯度下降(SGD)、Mini-batch Gradient Descent、带Mini-batch的SGD
一、回归函数及目标函数
以均方误差作为目标函数(损失函数),目的是使其值最小化,用于优化上式。
二、优化方式(Gradient Descent) 1、最速梯度下降法
也叫批量梯度下降法Batch Gradient Descent,BSD a、对目标函数求导
b、沿导数相反方向移动theta
原因: (1)对于目标函数,theta的移动量应当如下,其中a为步长,p为方向向量