拉格朗日对偶性问题的一些见解

李航《统计学习方法》中附录C中给出了拉格朗日对偶性的推导,在这里再重新捋一下其概念。

应用拉格朗日对偶性的目的将原始问题转换为对偶问题,通过求解对偶问题获得原始问题的解。

在这里,我们首先面临的一个问题:1.什么是对偶问题?2. 怎么将原始问题转换为对偶问题?

书中并不是上来就开始讲解怎么去转换的,而是首先将原始问题转换为拉格朗日极大值极小值问题。

即,假设f\left ( x \right ), c_{i}\left ( x \right ), h_j{_{_{}}}\left ( x \right )是定义在\mathbb{R}^{n}上的连续可微函数,考虑约束最优化问题:

                                                                  \min_{x\in \mathbb{R}^{n}}f(x)                                                           (1)

                                          限制条件:     c_{i}(x)\leqslant 0, i=1,2,....,k                                   (2)

                                                                 h_{j}(x)=0 ,j=1,2,...,j                                   (3)

// 关于限制条件的理解:这两类条件包括了所有可能,即不等式限制条件和等式限制条件,所有的限制条件都可以简化为这两种//

在这里,引入广义的拉尔朗日函数,那么上述三式可以写成:

                                 L(x, \alpha, \beta)=f(x)+\sum_{i=1}^{k}\alpha_{i}c_{i}(x)+\sum_{l=1}^{j}\beta_{j}h_{j}(x)                             (4)

                                                           // 注意各个系数之间的对应关系//

这里,x=(x^{(1)},x^{(2)},...,x^{(n)})^{T}\in \mathbb{R}^{n}\alpha_{i},\beta_{j}是拉格朗日乘子,\alpha_{i}\geq 0。考虑x的函数:

                                                 \theta _{p}(x)=\max_{\alpha_{i},\beta_{j},\alpha_{i}\geq 0}L(x,\alpha,\beta)                                              (5)

这里,下标 P 表示原始问题。

//在这里,我们引入了一个疑问,将原始问题(带有限制(边界)条件的函数求解问题)转换为拉格朗日函数,为什么是求解拉格朗日函数最值是最大值而不是最小值?这就是下边的推导要解释的内容//

假设给定某个 x。 如果 x 违反原始问题的约束条件,即存在某个i 使得c_{i}(w)>0或者存在某个j 使得h_{j}(w)\neq 0. 那么就有:

                           \theta _{p}(x)=\max_{\alpha_{i},\beta_{j},\alpha_{i}\geq 0}[f(x)+\sum_{i=1}^{k}\alpha_{i}c_{i}(x)+\sum_{j=1}^{l}\beta_{j}h_{j}(x)]=+\infty               (6)

//在这里,假设c_{i}(w)>0,我们让其对应的\alpha_{i}\rightarrow +\infty,而其它的\alpha_{m}\rightarrow 0,m\in k \cup m\neq i,那么\theta _{p}(x)\rightarrow +\infty。或者h_{j}(w)\neq 0,不论其大于0或者小于0,我们总能找到一个\beta_{j}\rightarrow +\infty or \beta_{j}\rightarrow -\infty,而其它的\beta_{n}\rightarrow 0,n\in l \cup n\neq j,且令\alpha_{i},(i=1,2,...,k)都等于0,那么\theta _{p}(x)\rightarrow +\infty。我们找到了特例,证明了式(6)。其实,说了这么多,这里就是在证明一个问题:对于原始问题,如果其中的任意一个限制条件c_{i}(x),h_{j}(x)不满足设定,那么由原始问题建立的拉格朗日函数L(x, \alpha, \beta)的最大值都趋于无穷大//

由上文所述,如果不满足条件,拉格朗日函数L(x, \alpha, \beta)的最大值都趋于无穷大,那么如果所有的原始问题中的限制条件都满足了呢?我们分析式(6):

h_{j}(w)= 0\Rightarrow \sum_{j=1}^{l}\beta_{j}h_{j}(x)=0

\alpha_{i}\geq 0, c_{i}(x)\leqslant 0\Rightarrow \sum_{i=1}^{k}\alpha_{i}c_{i}(x)<0

此时拉格朗日函数L(x, \alpha, \beta)变换为:

L(x, \alpha, \beta)=\max_{\alpha_{i},\beta_{j},\alpha_{i}\geq 0}[f(x)+\sum_{i=1}^{k}\alpha_{i}c_{i}(x)]

我们要求拉格朗日函数L(x, \alpha, \beta)的最大值,而

\sum_{i=1}^{k}\alpha_{i}c_{i}(x)<0

那么,此时,拉格朗日函数L(x, \alpha, \beta)的最大值f(x)

综上,我们得到了L(x, \alpha, \beta)最大值\theta _{p}(x)的表达式:

                                              \theta _{p}(x)=\left\{\begin{matrix} +\infty ,others\\ f(x),Meet the conditions\end{matrix}\right.                               (7)

我们在对\theta _{p}(x)求极小值,那么:

                                       \min_{x}\theta _{p}(x)=\min_{x}\max_{\alpha_{i},\beta_{j},\alpha_{i}\geq 0}L(x,\alpha,\beta)=\min f(x)                  (8)

//这儿很好理解,\theta _{p}(x)的定义式(7)给出其要么为正无穷,要么等于f(x),在f(x)和正无穷之间选出一个极小值,肯定不是正无穷吧?如果你认为f(x)=+\infty\theta _{p}(x)的最小值仍是f(x)。//

我们对比公式(1),发现公式(8)正是公式(1)。这么换算了那么久,就是为了完成这个替换,即用公式(8)替换公式(1)(2)(3)。公式(8)被称为广义拉格朗日函数的极小极大值问题(注意次序)。

//这里我们在求解公式(7)时已经用到了公式(2)(3),也就是说满足公式(8)必然满足公式(2)(3)等限制条件。//

在此处,我们定义原始问题的最优解:

                                                                p^{*}=\min_{x}\theta _{p}(x)                                                 (9)

//想想我们的目的,我们想把原始问题转换为对偶问题,但推导了半天却是将其转换成拉格朗日函数,这和对偶问题有什么关联呢?带着这样的疑问,我们进入下一阶段的证明//

定义:

                                                        \theta _{D}(\alpha,\beta)=\min_{x}L(x,\alpha,\beta)                                      (10)

//\theta _{D}(\alpha,\beta)\alpha,\beta的函数,而L(x,\alpha,\beta)x,\alpha,\beta的函数。//

对该式求极大值:

                                               \max_{\alpha,\beta,\alpha_{i} \geqslant 0}\theta _{D}(\alpha,\beta)=\max_{\alpha,\beta,\alpha_{i}\geqslant0}\min_{x}L(x,\alpha,\beta)                      (11)

公式(11)被称为广义拉格朗日函数的极大极小值问题(注意次序)。我们对其书写方式进行变换变为约束最优化的问题:

                                               \max_{\alpha,\beta}\theta _{D}(\alpha,\beta)=\max_{\alpha,\beta}\min_{x}L(x,\alpha,\beta)                               (12)

                          限制条件:     \alpha_{i}(x) \geqslant 0, i=1,2,....,k                                                (13)   

//注意公式(11)与公式(12)在书写上的区别//

公式(12)(13)是不是和公式(1)(2)很像?这就对了,这被称为原始问题(公式(1)(2))的对偶问题(公式(12)(13))。

//不要纠结公式(3)//

定义对偶问题的最优解:

                                                      d^{*}=\max_{\alpha,\beta,\alpha_{i} \geqslant 0}\theta _{D}(\alpha,\beta)                                                  (14)    

终于,说到这里,总算知道什么是原始问题,什么是对偶问题了,也就解决了我们最开始的问题1。下边开始解决我们的问题2。

下面讨论原始问题和对偶问题的关系

定理1:若原始问题和对偶问题都有最优值,则

                               d^{*}=\max_{\alpha,\beta,\alpha_{i} \geqslant 0}\theta _{D}(\alpha,\beta) \leq \min_{x}\max_{\alpha_{i},\beta_{j},\alpha_{i}\geq 0}L(x,\alpha,\beta)=p^{*}                   (15) 

如果我们能够证明定理1,那么原始问题就可以转换为对偶问题了,我们就解决了之前的问题2了。

证明:

由式(5)(10)(12)可得:

           \theta _{D}(\alpha,\beta)=\min_{x}L(x,\alpha,\beta)\leq L(x,\alpha,\beta) \leq \max_{\alpha_{i},\beta_{j},\alpha_{i}\geq 0}L(x,\alpha,\beta)=\theta _{p}(x)            (16) 

//第一个不等式很好理解,最小值肯定小于等于函数本身。第二个不等式中,有了限制条件\alpha_{i}\geq 0,不要忘了,我们由公式(11)中也有限制条件\alpha_{i}\geq 0//

                                                             \theta _{D}(\alpha,\beta) \leq \theta _{p}(x)                                                    (17) 

由于原始问题和对偶问题均有最优值,所以(不要问我为什么):

                                       \max_{\alpha,\beta,\alpha_{i} \geqslant 0}\theta _{D}(\alpha,\beta) \leq \min_{x}\max_{\alpha_{i},\beta_{j},\alpha_{i}\geq 0}L(x,\alpha,\beta)                                (18) 

即:

           \theta _{D}(\alpha,\beta)=\min_{x}L(x,\alpha,\beta)\leq L(x,\alpha,\beta) \leq \max_{\alpha_{i},\beta_{j},\alpha_{i}\geq 0}L(x,\alpha,\beta)=\theta _{p}(x)             (19) 

定理1得证。

后边的几个推理就贴在这儿,不再赘述。

拉格朗日对偶性问题的一些见解_第1张图片

你可能感兴趣的:(对偶问题)