Chapter 2.3 optimization(SGD,Momentum,NAG,Adagrad)
本小节将讨论关于网络权值参数更新的集中常见的方法:为什么要optimization这样做的目的是为了找到最合适的W,使得lossfunction的值最小为什么要用梯度下降方法考虑平面中的两个点(A,B),几何上来说两点间直线距离最短,也就是说点A沿着A,B斜率方向走是最快的。对于多维度空间,每个维度的斜率组合成的向量称为梯度CS231N怎么算梯度方向以SVM的lossfunction为例,同时结合