机器学习常见的问题总结(四)

1.二阶收敛为什么比一阶收敛更快?
一阶收敛是以1/n的速度收敛,二阶收敛是以1/(n^2)的速度收敛,所以速度比较快。
附:最优化问题中,牛顿法为什么比梯度下降法求解需要的迭代次数更少?
直观上的理解:梯度下降法,确定了一个方向(负梯度方向),迭代点沿着这个方向走 能够使得目标函数的值下降,具体走多大步还需要通过设置迭代步长。而牛顿法则是在某一个初始点处用二阶泰勒展开去近似原目标函数,通过对这个近似目标函数的导数为零 建立迭代关系式,所以牛顿法不仅考虑了目标函数的梯度而且还考虑了目标函数梯度的变化。梯度下降,只知道梯度的信息,相当于只知道了当前点的速度,如果速度(梯度)不为零,那么目标函数还没有到最优值,沿着负梯度方向走(对于一维函数来说梯度方向要不向左,要不向右),直到走到梯度为零的点,此时就是使得目标函数最优的点。牛顿法不仅知道当前点的速度还知道了当前点的加速度信息(速度的变化),所以它知道哪个点的速度为零,从而直接求出速度为零的这个点。 所以梯度下降法每一次迭代都在不断的试探,直到试探到梯度为零的地方, 而牛顿法则是每一步迭代都找到了梯度为零的点,因此牛顿法更快。
2.为什么BFGS效果要好于DFP?
BFGS优于DFP的原因在于,BFGS有自校正的性质(self-correcting property)。通俗来说,如果某一步BFGS对Hessian阵的估计偏了,导致优化变慢,那么BFGS会在较少的数轮迭代内(取决于线搜索的质量),校正估计的Hessian阵。
3.池化的作用是什么?
(1) invariance(不变性),这种不变性包括translation(平移),rotation(旋转),scale(尺度)
(2) 保留主要的特征同时减少参数(降维,效果类似PCA)和计算量,防止过拟合,提高模型泛化能力
4.AUC物理含义是什么?
假设分类器的输出是样本属于正类的socre(置信度),则AUC的物理意义为,任取一对(正、负)样本,正样本的score大于负样本的score的概率。从而我们能够理解对于AUC而言,并不关心具体预测的结果是标签或者概率,也不需要卡什么阈值,只要在预测结果之间有排序即可。
5.L1范数的最优化过程是怎么样的?梯度下降遇到不可导点怎么办?
最小角方法方法可以解决这个问题,但是方法不直观并且难以操作。
ADMM(Alternating Direction Method of Multipliers)算法可以较好的解决这个问题。首先ADMM基于对偶上升法,对于凸函数的优化问题,对偶上升法核心思想就是引入一个对偶变量,然后利用交替优化的思路,使得两者同时达到optimal。一个凸函数的对偶函数其实就是原凸函数的一个下界,因此可以证明一个较好的性质:在强对偶性假设下,即最小化原凸函数(primal)等价于最大化对偶函数(dual),两者会同时达到optimal。这种转化可以将原来很多的参数约束条件变得少了很多,以利于做优化他的思想就是想把primal变量、目标函数拆分,但是不再像对偶上升法那样,将拆分开的xi都看做是x的一部分,后面融合的时候还需要融合在一起,而是最先开始就将拆开的变量分别看做是不同的变量x和z,同时约束条件也如此处理,这样的好处就是后面不需要一起融合x和z,保证了前面优化过程的可分解性。
6.为什么共轭梯度法不适用于深度学习中的网络训练?
共轭梯度法在普通优化问题上的优点来自于两个方面:方向间的共轭性和线搜索。共轭梯度法使用以前的搜索信息来修正当前的梯度方向,使得搜索方向之间相互共轭。但是在深度学习这种情况下,由于梯度本身是小批量样本计算来的,具有随机性,这样方向间的共轭性就不能保证了。这种情况下,使用线搜索自然也就没有意义了。另一方面,神经网络中的动量项方法其实可以看成是一种粗糙的共轭梯度法的变体。在共轭梯度的公式中使用常数的值,这就是momentum方法,momentum 实际是共轭梯度法的近似 。
Steepest descent with momentum for quadratic functions is a version of the conjugate gradient method
Momentum的作用也和共轭梯度法的作用相似,即通过使用历史搜索方法对当前梯度方向的修正来抵消在ill-conditioned 问题上的来回震荡。比较这两种方法的效果,都是增大沿着长轴的方向的分量。从这个意义上来说,虽然放弃了共轭梯度法有限步收敛等性质,但其本质性质得以保留并广泛应用在了深度学习的训练中。
7.神经网络的损失函数为什么是非凸的?
主要思路是,任意的凸函数的最优点是唯一的. 假设一个最优点A后,如果总能找到另一点B,使AB点的损失值相等, 辅以证明AB不是同一点, 那么就能说明原函数是非凸的了。Quora上有相关的证明:https://www.quora.com/How-can-you-prove-that-the-loss-functions-in-Deep-Neural-nets-are-non-convex
8.马尔可夫决策过程中的值迭代和策略迭代区别?
策略迭代分了两步:(1)策略估计,(2)策略提升
在策略估计中,我们随机初始化了一个策略,不干别的,就是要把当前这个策略的V(s)给整收敛,怎么收敛呢? 求当前估计的v(s)和真实的v(s)之前的差值在策略估计后,才会进行第二步,就是策略提升,在策略提升中涉及到了action的操作,看当前策略下状态给出的action是不是最优的,如果都是,这个策略就是好的策略。
值迭代,一步到位在初始化后,直接比较的是最优action的值。这两个算法都能在经过无数次迭代后收敛,区别在于策略迭代比较繁琐,耗费较多的资源。但是事实上,策略迭代的收敛速度会更快一些。因此要在不同的情况下,对症下药。如果你的状态小可选策略迭代,状态大就用值迭代。

References:
http://blog.sina.com.cn/s/blog_5d29ee450102v6va.html
https://www.zhihu.com/question/268719846
https://www.zhihu.com/question/265516791
https://www.zhihu.com/question/19723347
https://www.zhihu.com/question/19723347
https://www.zhihu.com/question/41477987/answer/302304986

你可能感兴趣的:(算法,数学,机器学习,深度学习)