机器学习中的优化算法 第二课

机器学习中的优化算法 第二课


算法收敛的速度:

序列误差为

如果复合下面的关系,就称作是Q线性的:

如果r=1,C在0,1之间,那么就是线性。C是0就是超线性,C是1就是次线性。

如果r≥2.就是高次收敛。


解决给定的问题时候计算量是守恒的,如果需要更少的迭代次数,那么势必每一步的计算会更复杂。




对于梯度的定义,就是domain是什么形状的(scalar,vector,matrix),那么对每个分量求导之后放到相应的形状里面。

这样子就可以做内积。


例子:对于函数求梯度,那么就是

          对于,那么





链式法则例子:

如果,那么

二阶导数:

如果,那么

二阶导数:




求梯度,hessian的一个方法:

利用展开的式子:

如果可以做相应的展开,就能写出一阶导数和二阶导数:

例子


它的二阶导数不那么容易写出来,因为是四阶的张量。





三类型的矩阵诱导范数:

1.最大行绝对值和范数,由l1范数诱导

2.最大列绝对值和范数,由l无穷范数诱导

3. l2范数诱导




核范数:

矩阵的核范数是所有奇异值的和。

基于下面的理由,核范数经常用来接近矩阵的秩。

核范数相关的几个范数有比较不等式:



你可能感兴趣的:(机器学习中的优化算法 第二课)