最优化理论(三)

配合视频 中科大-凸优化
配合笔记 凸优化笔记

文章目录

  • 三、凸优化算法

三、凸优化算法

  • L P LP LP松弛和拉格朗日松弛的对偶关系,带等式约束可微凸优化的罚函数

  • 可微凸优化问题对偶函数和罚函数形式:二范数和 l o g − b a r r i e r log-barrier logbarrier

  • 黄金分割迭代法,回溯直线搜索 A r m i j o R u l e Armijo\quad Rule ArmijoRule方法

  • 函数的强凸性定义

  • 强凸函数的凸优化目标估计

  • 精确线性搜索和非精确线性搜索算法的收敛性

  • 最后解释的特征值差距很大的“”图导致算法收缩性较差的解释:对称矩阵的主轴定理:特征值描述一个“椭圆”的长轴和短轴大小, H e s s i a n Hessian Hessian矩阵的特征值控制了迭代算法的步长,配合视频效果奇佳

  • 迭代方向选择:最速下降法的范数约束,梯度下降和最速下降的变种:坐标轮换法, f ( x ) f(x) f(x)在某些点不可微

  • 牛顿法与拟牛顿法

  • 梯度下降法,最速下降法和牛顿法总结和无约束和有约束问题

  • 关于"已经 m i n f 0 ( x k + d k ) min\quad f_0(x^k+d^k) minf0(xk+dk)了,为什么还要再 m i n f 0 ( x k + α k d k ) min\quad f_0(x^k+\alpha^k d^k) minf0(xk+αkdk),不能直接 x k + 1 = x k + d k x^{k+1}=x^{k}+d^k xk+1=xk+dk吗,这样不是也已经使得 f 0 ( x k + 1 ) f_0(x^{k+1}) f0(xk+1)最小了吗”的回答:系数过大Loss不收敛,系数过小收敛太慢, d k d^k dk一般只会利用方向信息, α k \alpha^k αk实际表示了学习率,控制了步长,另外求最小时使用了近似,找到的 d k d^k dk实际并不能使其 m i n min min,再次利用 α \alpha α可以在 d d d方向上利用线性搜索算法实际使得 m i n f min\quad f minf

  • 拉格朗日法解 K K T KKT KKT条件中的等式约束非线性方程组

  • 在解有等式约束的优化问题时,理论上可以直接解 K K T KKT KKT条件,但实际操作中 K K T KKT KKT条件中的稳定性条件可能是一个非线性方程,很难解。因此在解有约束优化问题时,实际是放弃了直接解 K K T KKT KKT条件(视频中讨论的方法不是在找方法解 K K T KKT KKT条件,这里强调是因为老师的说法貌似很有误导性,而也是采用迭代的方式解每一小步,每一小步也是一个有约束问题,此时的问题可以通过泰勒展开成二次,使得 K K T KKT KKT条件中的稳定性条件的方程是一个线性方程,而线性方程是方便解出的

  • 视频中提到最优值处的 H e s s i a n Hessian Hessian矩阵为零的理解:在最优值处的第 k k k步用泰勒展开拟合时是一条水平直线,梯度和 H e s s i a n Hessian Hessian应该都为零,只有常数项,只有这样才能表达出是一个直线。因此老师说对于凸问题,第 k k k步的 ▽ 2 f ( x k ) ▽^2f(x^k) 2f(xk)在一般情况下是大于零的(凸函数的二阶条件),最优值处是零

  • 拉格朗日法和增广拉格朗日法的性质

  • 增广拉格朗日法例题解析, f ( x ) + g ( x ) f(x)+g(x) f(x)+g(x)的交替方向拉格朗日乘子法,分布式计算

你可能感兴趣的:(最优化理论,算法)