【白板推导系列笔记】支持向量机-约束优化问题-弱对偶性证明

简单来说,引入拉格朗日乘子是为了强制要求所有的约束条件必须被满足, x x x违反约束条件时, L ( x , α , β ) → + ∞ L(x,\alpha,\beta) \rightarrow +\infty L(x,α,β)+ x x x满足约束条件时, L ( x , α , β ) = f ( x ) L(x,\alpha,\beta) = f(x) L(x,α,β)=f(x)

假设 f ( x ) , c i ( x ) , h j ( x ) f(x),c_i(x),h_j(x) f(x)ci(x)hj(x)是定义在 R n R^n Rn上的连续可微函数。考虑约束最优化问题(极大化问题可以简单地转换为极小化问题,这里仅讨论极小化问题):
min ⁡ x ∈ R n f ( x ) s . t . m i ( x ) ≤ 0 , i = 1 , 2 , ⋯   , k n j ( x ) = 0 , j = 1 , 2 , ⋯   , l \begin{aligned} \min_{x \in R^n} \hspace{1em} & f(x)\\ s.t. \hspace{1em} & m_i(x) \le 0, \hspace{1em} i=1,2,\cdots,k\\ & n_j(x) = 0, \hspace{1em} j=1,2,\cdots,l \end{aligned} xRnmins.t.f(x)mi(x)0,i=1,2,,knj(x)=0,j=1,2,,l
引入拉格朗日乘子后,得到拉格朗日函数
L ( x , α , β ) = f ( x ) + ∑ i = 1 k α i c i ( x ) + ∑ j = 1 l β j h j ( x ) L(x,\alpha,\beta) = f(x) + \sum_{i=1}^k \alpha_i c_i (x) + \sum_{j=1}^l \beta_j h_j (x) L(x,α,β)=f(x)+i=1kαici(x)+j=1lβjhj(x)
如果 x x x违反 m i ( x ) m_{i}(x) mi(x)约束,即 m i ( x ) > 0 m_{i}(x)>0 mi(x)>0,那么 max  λ L → + ∞ \mathop{\text{max }}\limits_{\lambda}L \to +\infty λmax L+
如果 x x x符合 m i ( x ) m_{i}(x) mi(x)约束,即 m i ( x ) ≤ 0 m_{i}(x)\leq 0 mi(x)0,那么 max  λ L ≠ + ∞ \mathop{\text{max }}\limits_{\lambda}L \ne +\infty λmax L=+
因此有
min  x max  λ L = min  x { max ⁡ L ⏟ 符合约束 , + ∞ ⏟ 违反约束 } = min  x max  λ L \mathop{\text{min }}\limits_{x}\mathop{\text{max }}\limits_{\lambda}L=\mathop{\text{min }}\limits_{x}\left\{\underbrace{\max L}_{符合约束},\underbrace{+\infty}_{违反约束}\right\}=\mathop{\text{min }}\limits_{x}\mathop{\text{max }}\limits_{\lambda}L xmin λmax L=xmin {符合约束 maxL,违反约束 +}=xmin λmax L
如果 x x x违反 n j ( x ) n_{j}(x) nj(x)约束,即 n j ( x ) ≠ 0 n_{j}(x)\ne 0 nj(x)=0,那么 max  β L → + ∞ \mathop{\text{max }}\limits_{\beta}L \to +\infty βmax L+
如果 x x x符合 n j ( x ) n_{j}(x) nj(x)约束,即 n j ( x ) = 0 n_{j}(x)=0 nj(x)=0,那么 max  β L ≠ + ∞ \mathop{\text{max }}\limits_{\beta}L \ne +\infty βmax L=+
因此有
min  x max  λ L = min  x { max ⁡ L , + ∞ } = min  x max  λ L \mathop{\text{min }}\limits_{x}\mathop{\text{max }}\limits_{\lambda}L=\mathop{\text{min }}\limits_{x}\left\{\max L,+\infty\right\}=\mathop{\text{min }}\limits_{x}\mathop{\text{max }}\limits_{\lambda}L xmin λmax L=xmin {maxL,+}=xmin λmax L

所谓弱对偶性,指的是对偶问题 ≤ \leq 原问题,即:
min ⁡ max ⁡ f ≥ max ⁡ min ⁡ f \min \max f \geq \max \min f minmaxfmaxminf
对于 L ( x , λ , η ) L(x,\lambda,\eta ) L(x,λ,η)这个函数,我们知道下面这个不等式一定成立
min  x L ( x , λ , η ) ≤ L ( x , λ , η ) ≤ max  λ , η L ( x , λ , η ) \mathop{\text{min }}\limits_{x}L(x,\lambda,\eta )\leq L(x,\lambda,\eta )\leq \mathop{\text{max }}\limits_{\lambda,\eta }L(x,\lambda,\eta ) xmin L(x,λ,η)L(x,λ,η)λ,ηmax L(x,λ,η)
中间 L ( x , λ , η ) L(x,\lambda,\eta ) L(x,λ,η)我们可以理解为 L L L的值域,值域里面的任何一个数,必然是大于等于它对 x x x的最小值,小于等于它对 λ , η \lambda,\eta λ,η的最大值。

A ( λ , η ) = min  x L , B ( x ) = max  λ , η L A(\lambda,\eta )=\mathop{\text{min }}\limits_{x}L,B(x)=\mathop{\text{max }}\limits_{\lambda,\eta }L A(λ,η)=xmin L,B(x)=λ,ηmax L
因此有
A ( λ , η ) ≤ B ( x ) A ( λ , η ) ≤ min ⁡ B ( x ) max ⁡ A ( λ , η ) ≤ min ⁡ B ( x ) \begin{aligned} A(\lambda,\eta )&\leq B(x)\\ A(\lambda,\eta )&\leq \min B(x)\\ \max A(\lambda,\eta )&\leq \min B(x) \end{aligned} A(λ,η)A(λ,η)maxA(λ,η)B(x)minB(x)minB(x)
因此
max ⁡ min ⁡ L ≤ min ⁡ max ⁡ L \max \min L \leq \min \max L maxminLminmaxL

后面还有对偶关系之几何解释、对偶关系之slater condition、对偶关系之KKT条件,以后会补上的

CSDN话题挑战赛第2期
参赛话题:学习笔记

你可能感兴趣的:(白板推导系列笔记,支持向量机,算法,机器学习,数据挖掘,重构)