凸优化学习(六)——一个简单的对偶实例

注意,本文内容来自于吴恩达老师cs229课堂笔记的中文翻译项目:https://github.com/Kivy-CN/Stanford-CS-229-CN 中的凸优化部分的内容进行翻译学习。

2 一个简单的对偶实例

作为对偶的一个简单应用,在本节中,我们将展示如何形成一个简单凸优化问题的对偶问题。考虑如下的凸优化问题:

min ⁡ x ∈ R 2 x 1 2 + x 2 s u b j e c t t o 2 x 1 + x 2 ≥ 4 x 2 ≥ 1 \begin{aligned} \min_{x\in R^2}\quad &x_1^2+x_2 \\ subject\quad to \quad&2x_1+x_2\ge 4 \\ & x_2\ge 1 \end{aligned} xR2minsubjecttox12+x22x1+x24x21

首先,我们将优化问题重写为标准形式:

min ⁡ x ∈ R 2 x 1 2 + x 2 s u b j e c t t o 4 − 2 x 1 − x 2 ≤ 0 1 − x 2 ≤ 0 \begin{aligned} \min_{x\in R^2}\quad &x_1^2+x_2 \\ subject\quad to \quad&4-2x_1-x_2\le 0 \\ & 1-x_2\le 0 \end{aligned} xR2minsubjecttox12+x242x1x201x20

拉格朗日函数是:

L ( x , α ) = x 1 2 + x 2 + α 1 ( 4 − 2 x 1 − x 2 ) + α 2 ( 1 − x 2 ) , ( 21 ) \mathcal{L}(x,\alpha)=x_1^2+x_2+\alpha_1(4-2x_1-x_2)+\alpha_2(1-x_2),\qquad\qquad (21) L(x,α)=x12+x2+α1(42x1x2)+α2(1x2),(21)

对偶问题的目标定义为:

θ D ( α ) = min ⁡ x L ( x , α ) \theta_\mathcal{D}(\alpha)=\min_x\mathcal{L}(x,\alpha) θD(α)=xminL(x,α)

为了用只依赖于 α \alpha α(而不是 x x x)的形式来表示对偶目标,我们首先观察到拉格朗日函数关于 x x x是可微的,事实上, x 1 x_1 x1 x 2 x_2 x2(即我们可以分别求出它们的最小值)是可以分离的。

为了使函数关于 x 1 x_1 x1最小化,可以观察到拉格朗日函数是关于 x 1 x_1 x1的严格凸二次函数,因此通过将导数设为零可以找到关于 x 1 x_1 x1的最小值:

∂ ∂ x 1 L ( x , α ) = 2 x 1 − 2 α 1 = 0 ⟹ x 1 = α 1 ( 22 ) \frac{\partial}{\partial x_1}\mathcal{L}(x,\alpha)=2x_1-2\alpha_1=0\Longrightarrow x_1=\alpha_1\qquad\qquad (22) x1L(x,α)=2x12α1=0x1=α1(22)

为了使函数关于 x 2 x_2 x2最小化,可以观察到拉格朗日函数是 x 2 x_2 x2的仿射函数,其中线性系数恰好是拉格朗日系数关于 x 2 x_2 x2的导数:

∂ ∂ x 2 L ( x , α ) = 1 − α 1 − α 2 ( 23 ) \frac{\partial}{\partial x_2}\mathcal{L}(x,\alpha)=1-\alpha_1-\alpha_2\qquad\qquad (23) x2L(x,α)=1α1α2(23)

如果线性系数非零,则目标函数可以通过选择与线性系数符号相反的 x 2 x_2 x2和任意大的增幅使其任意小。然而,如果线性系数为零,则目标函数不依赖于 x 2 x_2 x2

把以上这些观察结果放在一起,我们得到:

θ D ( α ) = min ⁡ x L ( x , α ) = min ⁡ x 2 [ α 1 2 + x 2 + α 1 ( 4 − 2 x 1 − x 2 ) + α 2 ( 1 − x 2 ) ] = min ⁡ x 2 [ − α 1 2 + 4 α 1 + α 2 + x 2 ( 1 − α 1 − α 2 ) ] = { − α 1 2 + 4 α 1 + α 2 如 果 1 − α 1 − α 2 = 0 − ∞ 其 他 情 况 \begin{aligned} \theta_\mathcal{D}(\alpha)&=\min_x\mathcal{L}(x,\alpha) \\ &=\min_{x_2}[\alpha_1^2+x_2+\alpha_1(4-2x_1-x_2)+\alpha_2(1-x_2)] \\ &=\min_{x_2}[-\alpha_1^2+4\alpha_1+\alpha_2+x_2(1-\alpha_1-\alpha_2)] \\ &=\begin{cases} -\alpha_1^2+4\alpha_1+\alpha_2 \quad &如果1-\alpha_1-\alpha_2=0\\ -\infin &其他情况 \end{cases} \end{aligned} θD(α)=xminL(x,α)=x2min[α12+x2+α1(42x1x2)+α2(1x2)]=x2min[α12+4α1+α2+x2(1α1α2)]={α12+4α1+α21α1α2=0

所以对偶问题由下式给出:

max ⁡ x ∈ R 2 θ D ( α ) s u b j e c t t o α 1 ≥ 0 α 2 ≥ 0 \begin{aligned} \max_{x\in R^2}\quad &\theta_\mathcal{D}(\alpha) \\ subject\quad to \quad&\alpha_1\ge 0 \\ & \alpha_2\ge 0 \end{aligned} xR2maxsubjecttoθD(α)α10α20

最后,我们可以通过观察使对偶约束显式 6 ^6 6的化简对偶问题:

6 这就是说,我们把使 θ D ( α ) \theta_\mathcal{D}(\alpha) θD(α) − ∞ -\infin 的条件移到对偶优化问题的约束集中。

max ⁡ x ∈ R 2 − α 1 2 + 4 α 1 + α 2 s u b j e c t t o α 1 ≥ 0 α 2 ≥ 0 1 − α 1 − α 2 = 0 \begin{aligned} \max_{x\in R^2}\quad &-\alpha_1^2+4\alpha_1+\alpha_2 \\ subject\quad to \quad&\alpha_1\ge 0 \\ & \alpha_2\ge 0 \\ & 1-\alpha_1-\alpha_2=0 \end{aligned} xR2maxsubjecttoα12+4α1+α2α10α201α1α2=0

注意对偶问题是以为 α \alpha α变量的一个凹二次规划问题。

下一篇:凸优化学习(七)——SVM L 1 L_1 L1范数的软边界

你可能感兴趣的:(机器学习,数据处理,数据挖掘)