原问题与对偶问题的定义和关系

东边有棵树的博客# 原问题与对偶问题的定义和关系

(1)原问题与对偶问题定义

一个优化问题的原问题和对偶问题定义如下:

原问题:
最 小 化 :     f ( w ) 限 制 条 件 : { g i ( w ) ≤ 0     i = 1 ⋯ K h i ( w ) = 0     i = 1 ⋯ M (1) 最小化:~~~f(w)\\限制条件: \begin{cases} g_i(w)\leq0~~~i=1\cdots K\\ h_i(w)=0~~~i=1\cdots M \end{cases}\tag{1} :   f(w):{gi(w)0   i=1Khi(w)=0   i=1M(1)
定义一函数 L ( w , α , β ) L(w,\alpha,\beta) L(w,α,β)为:
L ( w , α , β ) = f ( w ) + ∑ i = 1 K α i g i ( w ) + ∑ i = 1 M β i h i ( w ) (2) L(w,\alpha,\beta)=f(w)+ \sum_{i=1}^K\alpha_ig_i(w)+\sum_{i=1}^M\beta_ih_i(w)\tag{2} L(w,α,β)=f(w)+i=1Kαigi(w)+i=1Mβihi(w)(2)
当然可以用矩阵写成简单的形式:
L ( w , α , β ) = f ( w ) + α T g ( w ) + β T h ( w ) (3) L(w,\alpha,\beta)=f(w)+\alpha^Tg(w)+\beta^Th(w) \tag{3} L(w,α,β)=f(w)+αTg(w)+βTh(w)(3)
公式 ( 3 ) (3) (3) α T \alpha^T αT g ( w ) g(w) g(w)都是 K K K维的,而 β T \beta^T βT h ( w ) h(w) h(w)都是 M M M维的。则原问题的对偶问题为:
最 大 化 θ ( α , β ) = inf ⁡ 所 有 w {   L ( w , α , β )   } 限 制 条 件 : α i   ≥   0 ( i = 1 ⋯ K ) (4) 最大化\quad\theta(\alpha,\beta)=\inf \limits_{所有w}\{~L(w,\alpha,\beta)~\}\\限制条件:\alpha_i~\ge~0\quad(i=1\cdots K)\tag{4} θ(α,β)=winf{ L(w,α,β) }αi  0(i=1K)(4)
其中 inf ⁡ 所 有 w {   L ( w , α , β )   } \inf \limits_{所有w}\{~L(w,\alpha,\beta)~\} winf{ L(w,α,β) }的意思是在限制 α \alpha α β \beta β的情况下遍历所有的 w w w求最小值,即每确定一个 α \alpha α β \beta β都能算出一个最小值,即每一个 α \alpha α β \beta β都对应一个值,很明显,这是 α \alpha α β \beta β的函数,故写作 θ ( α , β ) \theta(\alpha,\beta) θ(α,β)。那么公式 ( 4 ) (4) (4)是针对所有的 α \alpha α β \beta β求最大值,即在所有的最小值中找最大的。

(2)原问题和对偶问题的关系

定理:如果 w ∗ w^* w是原问题的解,而 α ∗ \alpha^* α β ∗ \beta^* β是对偶问题的解,则有:
f ( w ∗ ) ≥ θ ( α ∗ , β ∗ ) (5) f(w^*)\ge\theta(\alpha^*,\beta^*)\tag{5} f(w)θ(α,β)(5)
定理证明如下:
θ ( α ∗ , β ∗ ) = inf ⁡ 所 有 w {   L ( w , α ∗ , β ∗ )   } ≤ L ( w ∗ , α ∗ , β ∗ ) = f ( w ∗ ) + ∑ i = 1 K α i ∗ g i ( w ∗ ) + ∑ i = 1 M β i ∗ h i ( w ∗ ) 利 用 原 问 题 和 对 偶 问 题 的 限 制 条 件 可 知 : α i ∗ ≥ 0 , g i ( w ∗ ) ≤ 0 , h i ( w ∗ ) = 0 进 而 可 得 : ∑ i = 1 K α i ∗ g i ( w ∗ ) ≤ 0 , ∑ i = 1 M β i ∗ h i ( w ∗ ) = 0 最 终 可 得 : θ ( α ∗ , β ∗ ) ≤ f ( w ∗ ) − 证 毕 \theta(\alpha^*,\beta^*)=\inf\limits_{所有w}\{~L(w,\alpha^*,\beta^*)~\}\\ \leq L(w^*,\alpha^*,\beta^*)\\ =f(w^*)+\sum_{i=1}^K\alpha_i^*g_i(w^*)+\sum_{i=1}^M\beta_i^*h_i(w^*)\\ 利用原问题和对偶问题的限制条件可知: \\\alpha_i^*\ge0,g_i(w^*)\leq0,h_i(w^*)=0\\ 进而可得:\\ \sum_{i=1}^K\alpha_i^*g_i(w^*)\leq0,\sum_{i=1}^M\beta_i^*h_i(w^*)=0\\ 最终可得:\theta(\alpha^*,\beta^*)\leq f(w^*)-证毕 θ(α,β)=winf{ L(w,α,β) }L(w,α,β)=f(w)+i=1Kαigi(w)+i=1Mβihi(w)αi0,gi(w)0,hi(w)=0i=1Kαigi(w)0,i=1Mβihi(w)=0θ(α,β)f(w)
接下来又有一个定义: G = f ( w ∗ ) − θ ( α ∗ , β ∗ ) ≥ 0 G=f(w*)-\theta(\alpha^*,\beta^*)\ge0 G=f(w)θ(α,β)0 G G G叫作原问题与对偶问题的间距,对于某些特定的优化问题,可以证明 G = 0 G=0 G=0

强对偶定理:若 f ( w ) f(w) f(w)为凸函数,且 g ( w ) = A w + b g(w)=Aw+b g(w)=Aw+b(线性), h ( w ) = C w + d h(w)=Cw+d h(w)=Cw+d(线性),则此优化问题原问题与对偶问题的间距为零,即 f ( w ∗ ) = θ ( α ∗ , β ∗ ) f(w^*)=\theta(\alpha^*,\beta^*) f(w)=θ(α,β),此证明比较麻烦,这里不作证明。这时我们就可以将原问题的求解转化到对偶问题的求解上来。

你可能感兴趣的:(机器学习,机器学习)