【First-order Methods】 8 Primal and Dual Projected Subgradient Methods

参考文献:first-order methods in optimization: Amir Beck

目录

1  From Gradient Descent to Subgradient Descent

1.1  Descent Directions?

2 The Projected Subgradient Method

2.1 The Method

2.2  Convergence under Polyak's Stepsize Rule

2.3 The Convex Feasibility Problem

2.4 Projected Subgradient with Dynamic Stepsizes

2.5 The Strongly Convex Case

3 The Stochastic Projected Subgradient Method

4 The Incremental Projected Subgradient Method

5 The Dual Projected Subgradient Method



1  From Gradient Descent to Subgradient Descent

1.1  Descent Directions?

f^{'}(x;d)=\lim_{\alpha \rightarrow 0^{+}}\frac{f(x+\alpha d)-f(x)}{\alpha }可以看出方向导数为负时,必为下降方向。

在数值优化中f^{'}(x;d)=<\bigtriangledown f(x),d><0时,d为下降方向。

若f不可微,在非光滑的情况下,用次梯度代替梯度

  \Rightarrow

梯度方法与次梯度方法的区别在于,次梯度方向不一定是下降方向。

2 The Projected Subgradient Method

2.1 The Method

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第1张图片

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第2张图片

至此了解到投影次梯度的算法框架,我们只能得到上述不等式,并不能保证所有投影次梯度的收敛性,下面我们将讨论在某种步长构造下,此方法是收敛的。

2.2  Convergence under Polyak's Stepsize Rule

首先假设函数和定义域满足以下假设:

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第3张图片

Polyak's stepsize:

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第4张图片

f^{'}(x^{k})=0时我们可以知道x^{k}就是最优点(Remark8.10),所以对于迭代公式x^{k+1}=x^{k}-t_{k}g^{k},后半部分恒为0,所以此时t_{k}取值并不影响,可以任取,这里我们取1.下面我们证其收敛性。

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第5张图片

易证。值得注意的:这里xk-x*并未趋于0,并不能直接证明解的收敛,也不能说明收敛速度。证明中利用的bound可以做以下替代

定理8.13(a)的序列性质被称为Fej´er monotonicity,我们可以证明有这种性质的序列的收敛性。

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第6张图片

由此

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第7张图片

由8.13(a)可知,迭代公式得到的序列都有fejer单调性,因此由8.16可知,只需证明一个极限点在X^{*}中,那么其他极限点必然在X^{*}中。令x0是序列的一个极限点,那么存在序列的子列收敛于x0,且由于C的闭性,x0属于C。8.13(b)有值的收敛,由f的连续性,我们可以得到f(x0)=f_{opt},这意味着x0也属于最优解集。这里我们已经成功证明红字部分,这个收敛点也是一个最优解,属于X*。

有类似8.13(a)的式子出现应该都要用到这一套路。

8.13(c)体现了值f_{best}^{k}O(1/\sqrt{k})收敛速率。

2.3 The Convex Feasibility Problem

 

2.4 Projected Subgradient with Dynamic Stepsizes

之前Polyak的步长需要提前知道最优值,显然无法计算。我们本节构造新的步长,依然保有O(1/\sqrt{k})的收敛率,并且发现保证f_{best}^{k}\rightarrow f_{opt}的步长构造条件。首先介绍一个引理:

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第8张图片

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第9张图片

易证。讨论能使投影次梯度方法收敛的步长条件:

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第10张图片

易证。通过8.25我们构造如下步长:

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第11张图片

易证。说明了在这种构造下值f_{best}^{k}f(x^{(k)})O(log(k)/\sqrt{k})的收敛率。我们仍然希望得到如Polyak步长下f_{best}^{k}O(1/\sqrt{k})的收敛速度,只需在上述构造条件中加入 C为紧集即可,重新表述:

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第12张图片

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第13张图片

2.5 The Strongly Convex Case

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第14张图片

3 The Stochastic Projected Subgradient Method

通过对次梯度取估计

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第15张图片

4 The Incremental Projected Subgradient Method

对于特殊形式的问题

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第16张图片

注意符号,每一小步走小函数的次梯度方向,m步就为一大步;在此特殊形势下,f分量的次梯度之和也是f的次梯度。

证明此算法在步长条件下  f_{best}^{k}收敛,在C为紧时,有O(1/\sqrt{k})的收敛速度.

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第17张图片

5 The Dual Projected Subgradient Method

问题形式与假设:

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第18张图片

注意强对偶条件。给出算法流程:

【First-order Methods】 8 Primal and Dual Projected Subgradient Methods_第19张图片

收敛性分析     对具体线性规划等例子的计算  

 

 

 

你可能感兴趣的:(一阶方法)