东边有棵树的博客# 原问题与对偶问题的定义和关系
一个优化问题的原问题和对偶问题定义如下:
原问题:
最 小 化 : f ( w ) 限 制 条 件 : { g i ( w ) ≤ 0 i = 1 ⋯ K h i ( w ) = 0 i = 1 ⋯ M (1) 最小化:~~~f(w)\\限制条件: \begin{cases} g_i(w)\leq0~~~i=1\cdots K\\ h_i(w)=0~~~i=1\cdots M \end{cases}\tag{1} 最小化: f(w)限制条件:{gi(w)≤0 i=1⋯Khi(w)=0 i=1⋯M(1)
定义一函数 L ( w , α , β ) L(w,\alpha,\beta) L(w,α,β)为:
L ( w , α , β ) = f ( w ) + ∑ i = 1 K α i g i ( w ) + ∑ i = 1 M β i h i ( w ) (2) L(w,\alpha,\beta)=f(w)+ \sum_{i=1}^K\alpha_ig_i(w)+\sum_{i=1}^M\beta_ih_i(w)\tag{2} L(w,α,β)=f(w)+i=1∑Kαigi(w)+i=1∑Mβihi(w)(2)
当然可以用矩阵写成简单的形式:
L ( w , α , β ) = f ( w ) + α T g ( w ) + β T h ( w ) (3) L(w,\alpha,\beta)=f(w)+\alpha^Tg(w)+\beta^Th(w) \tag{3} L(w,α,β)=f(w)+αTg(w)+βTh(w)(3)
公式 ( 3 ) (3) (3)中 α T \alpha^T αT和 g ( w ) g(w) g(w)都是 K K K维的,而 β T \beta^T βT和 h ( w ) h(w) h(w)都是 M M M维的。则原问题的对偶问题为:
最 大 化 θ ( α , β ) = inf 所 有 w { L ( w , α , β ) } 限 制 条 件 : α i ≥ 0 ( i = 1 ⋯ K ) (4) 最大化\quad\theta(\alpha,\beta)=\inf \limits_{所有w}\{~L(w,\alpha,\beta)~\}\\限制条件:\alpha_i~\ge~0\quad(i=1\cdots K)\tag{4} 最大化θ(α,β)=所有winf{ L(w,α,β) }限制条件:αi ≥ 0(i=1⋯K)(4)
其中 inf 所 有 w { L ( w , α , β ) } \inf \limits_{所有w}\{~L(w,\alpha,\beta)~\} 所有winf{ L(w,α,β) }的意思是在限制 α \alpha α和 β \beta β的情况下遍历所有的 w w w求最小值,即每确定一个 α \alpha α和 β \beta β都能算出一个最小值,即每一个 α \alpha α和 β \beta β都对应一个值,很明显,这是 α \alpha α和 β \beta β的函数,故写作 θ ( α , β ) \theta(\alpha,\beta) θ(α,β)。那么公式 ( 4 ) (4) (4)是针对所有的 α \alpha α和 β \beta β求最大值,即在所有的最小值中找最大的。
定理:如果 w ∗ w^* w∗是原问题的解,而 α ∗ \alpha^* α∗, β ∗ \beta^* β∗是对偶问题的解,则有:
f ( w ∗ ) ≥ θ ( α ∗ , β ∗ ) (5) f(w^*)\ge\theta(\alpha^*,\beta^*)\tag{5} f(w∗)≥θ(α∗,β∗)(5)
定理证明如下:
θ ( α ∗ , β ∗ ) = inf 所 有 w { L ( w , α ∗ , β ∗ ) } ≤ L ( w ∗ , α ∗ , β ∗ ) = f ( w ∗ ) + ∑ i = 1 K α i ∗ g i ( w ∗ ) + ∑ i = 1 M β i ∗ h i ( w ∗ ) 利 用 原 问 题 和 对 偶 问 题 的 限 制 条 件 可 知 : α i ∗ ≥ 0 , g i ( w ∗ ) ≤ 0 , h i ( w ∗ ) = 0 进 而 可 得 : ∑ i = 1 K α i ∗ g i ( w ∗ ) ≤ 0 , ∑ i = 1 M β i ∗ h i ( w ∗ ) = 0 最 终 可 得 : θ ( α ∗ , β ∗ ) ≤ f ( w ∗ ) − 证 毕 \theta(\alpha^*,\beta^*)=\inf\limits_{所有w}\{~L(w,\alpha^*,\beta^*)~\}\\ \leq L(w^*,\alpha^*,\beta^*)\\ =f(w^*)+\sum_{i=1}^K\alpha_i^*g_i(w^*)+\sum_{i=1}^M\beta_i^*h_i(w^*)\\ 利用原问题和对偶问题的限制条件可知: \\\alpha_i^*\ge0,g_i(w^*)\leq0,h_i(w^*)=0\\ 进而可得:\\ \sum_{i=1}^K\alpha_i^*g_i(w^*)\leq0,\sum_{i=1}^M\beta_i^*h_i(w^*)=0\\ 最终可得:\theta(\alpha^*,\beta^*)\leq f(w^*)-证毕 θ(α∗,β∗)=所有winf{ L(w,α∗,β∗) }≤L(w∗,α∗,β∗)=f(w∗)+i=1∑Kαi∗gi(w∗)+i=1∑Mβi∗hi(w∗)利用原问题和对偶问题的限制条件可知:αi∗≥0,gi(w∗)≤0,hi(w∗)=0进而可得:i=1∑Kαi∗gi(w∗)≤0,i=1∑Mβi∗hi(w∗)=0最终可得:θ(α∗,β∗)≤f(w∗)−证毕
接下来又有一个定义: G = f ( w ∗ ) − θ ( α ∗ , β ∗ ) ≥ 0 G=f(w*)-\theta(\alpha^*,\beta^*)\ge0 G=f(w∗)−θ(α∗,β∗)≥0, G G G叫作原问题与对偶问题的间距,对于某些特定的优化问题,可以证明 G = 0 G=0 G=0。
强对偶定理:若 f ( w ) f(w) f(w)为凸函数,且 g ( w ) = A w + b g(w)=Aw+b g(w)=Aw+b(线性), h ( w ) = C w + d h(w)=Cw+d h(w)=Cw+d(线性),则此优化问题原问题与对偶问题的间距为零,即 f ( w ∗ ) = θ ( α ∗ , β ∗ ) f(w^*)=\theta(\alpha^*,\beta^*) f(w∗)=θ(α∗,β∗),此证明比较麻烦,这里不作证明。这时我们就可以将原问题的求解转化到对偶问题的求解上来。