Proximal Algorithms
需要注意的一点是,本节所介绍的例子可以通过第二节的性质进行延展.
一般方法
一般情况下proximal需要解决下面的问题:
其中, .
我们可以使用梯度方法(或次梯度)方法来求解, 还有一些投影方法, 内点法等等.
二次函数
如果, 其中,于是:
证:
设, 根据第二节介绍的仿射性质可得:
又, 故得证.
特别的则, , , 而当时:
这玩意儿有时候被称为压缩算子.
估计proximal operator的时候,需要求解一个线性方程组:
线性方程组怎么求解这里就不讨论了吧.
不过,这个应该多数用在这种情况吧,因为如果单纯想要最小化,直接可以求出显示解,所以可能是这种类型的?
平滑函数
文章里介绍了如何用梯度方法和牛顿方法,不提了.
标量函数
, 通过之前几节的介绍,这个情况还是蛮有意义的,因为通过proximal operator的可分性质等,有很好的扩展.
显然,此时,最优条件为:
比如:
又比如当:
一般的标量函数
如果对于,其次梯度是可获得的,那么我们可以利用localization method来有效估计, 这种方法有点类似于二分法.
我们从开始, 如果在区间之外,返回最靠近的点?(应该就是挑中最靠经的点作为边界吧) 算法会在的时候终止.
注:上面的第一步的意思应该是如果在区间里面就取,否则取中间的点.
如果,那么, 显然,当不是最优的,而是一个下界. 为了说明这一点,假设. 因为, 所以,则(因为凸函数的次梯度是单调的), 令:
于是
等式右边是, 所以新的就是一端小于0,一端大于0, 不过这对一开始的有要求吧.
如果是二阶连续可微的,那么,可以用guarded Newton方法来找,不理解曲中的缘由,贴个图吧.
多边形
这一小节,考虑投影至多边形的问题,多边形可以用 一系列线性方程和不等式描述:
其中.
投影问题可以表示为(计算便会遇到此问题):
对偶
当都远小于的时候,利用对偶方法是方便的.
(6.4)的对偶问题是:
其中为对偶变量(上面的式子不难推出,这里不证了).
对偶问题是:
这是一个个变量的二阶规划(QP)问题,且:
这个最优解的恢复是由KKT条件得来的.上面的问题,似乎可以用内点法有效解决,下次找机会再看看. 文章还提到了如何使得QP问题能够简单并行,这里便不多赘述了.
仿射集合
即
则:
其中是伪逆.
如果满秩,那么:
这个我可以用一种比较麻烦的方法证明.
假设最优解为:,因为
所以,根据线性方程组解的理论可知:
那么问题可以转换为:
再根据线性方程组的理论可知,属于的核,设:
其中.
我们只要找出在核空间的投影即可:
即投影为0,也就是说, 这也就证明了
半平面
此时, 而:
其中.
这个可以画个图来证明,注意到和点到直线距离的联系.
Box
box为如下形式, 及:
如果则:
这个感觉是显然的.
Simplex
Simplex 为如下形式, 及
对于某些.
满足
利用二分法可以求解.
Cones
令为锥,以及为其对偶锥. 那么问题为:
对偶锥的定义:
对偶最优条件为:
这个条件我是存疑的,这样子原问题应该是,当然,这应该无伤大雅.
二阶锥
上面的东西,通过考虑下面的问题:
可以获得, 第二种情况是不需讨论的, 那么先来看第一种情况。
在的情况下,, 不妨令.则,原问题为:
在处取得极值,但是, 所以此时, 所以. 的时候,,于是原问题为:
那么,显然没有0的时候小.
第三种情况的分析是类似的.
半正定锥
, 此时
其中为特征分解.
指数锥
不了解,截个图吧
Pointwise maximum and supremum
max
如果, 根据其上镜图,我们有等价形式:
其拉格朗日对偶形式为:
KKT条件为:
如果,则表示(通过第三个条件), 如果,则表示, 又, 总结为:
再根据第五个条件可得:
这个可以用半分法求解,初始的区间为.
最后
support function
是一个凸集,其support function为:
support function的共轭是指示函数.
通过Moreau 分解我们知道:
一个例子是, 表的前k个最大的和,可以用以下凸集的support function来表示:
Norms and norm balls
为一般的定义在上的范数,则, 其中为对偶范数的单位球.
我们知道, 此为的支撑函数,故.
对偶不是共轭的特例?
于是根据Moreau分解,有以下式子成立:
Euclidean 范数
当的时候:
以及:
and norms
的是box,所以根据之前讨论过的:
引文和互为对偶,所以当的时候:
可以用更为紧凑的形式表示:
欲计算的proximal operator并不容易,因为投影到的单位球比较麻烦.
我们需要计算一个,满足:
可以用类似半分法的方法求解.
Elastic net
, .
此时
范数和
其中是的一个分割, 则:
sublevel set and epigradph
下水平集
的下水平集合为:
假设 , 否则.
此时可以转化为下列问题:
通过KKT条件可得最优条件为:
第一个条件,表示, 再根据第二个条件可得:
我们可以通过二分法来寻找.
上镜图
函数的上镜图为:
针对:
同样假设KKT条件为:
所以
论文说这个问题比较难成立,有另外一种表示方法:
不知道怎么推的.
Matrix functions
Elementwise functions
这里将矩阵视为的向量,就能利用之前的方法了,比如的方法:
正交不变
函数,正交不变是指:
其中为正交矩阵, 这也意味着:
其中是奇异值映射.
正交不变算子可以表示为:, 而
其中. 这个的推导见之前关于矩阵次梯度的介绍.
这意味着:
这个没依照论文来,论文似乎有更加直接的证明方法,我来讲一下我的:
最优条件为:
假设, 则:
显然的奇异值分解也为:
而
其最优条件为:
显然二者的最有条件是一样的,所以成立.
当, 且:
其中.
后面还有一些关于矩阵范数,一些特殊集合的投影,以及如何求解对数障碍问题.