机器学习-白板推导系列(六)(2) - 约束优化问题

6. 约束优化问题

6.1 弱对偶性证明

6.1.1 概述

  1. 约束优化问题
    约束优化问题的 原 问 题 ( P r i m a l P r o b l e m ) \color{red}原问题(Primal Problem) PrimalProblem的一般形式如下:
    { m i n x    f ( x ) , x ∈ R p s . t .    m i ( x ) ≤ 0 , i = 1 , 2 , ⋯   , M s . t .    n j ( x ) = 0 , j = 1 , 2 , ⋯   , N (6.1.1) \left\{\begin{matrix} \underset{x}{min}\; f(x),x\in \mathbb{R}^{p}\\ s.t.\; m_{i}(x)\leq 0,i=1,2,\cdots ,M\\ s.t.\; n_{j}(x)=0,j=1,2,\cdots ,N \end{matrix}\right.\tag{6.1.1} xminf(x),xRps.t.mi(x)0,i=1,2,,Ms.t.nj(x)=0,j=1,2,,N(6.1.1)
    求解约束优化问题需要用到拉格朗日乘子法,定义拉格朗日函数
    L ( x , λ , η ) = f ( x ) + ∑ i = 1 M λ i m i ( x ) + ∑ j = 1 N η j n j ( x ) (6.1.2) L(x,\lambda ,\eta )=f(x)+\sum_{i=1}^{M}\lambda _{i}m_{i}(x)+\sum_{j=1}^{N}\eta _{j}n_{j}(x)\tag{6.1.2} L(x,λ,η)=f(x)+i=1Mλimi(x)+j=1Nηjnj(x)(6.1.2)
    其中 λ , η \lambda ,\eta λ,η分别是 M 维 M维 M N 维 N维 N向量。
  2. 无约束优化问题
    原问题转化为无优化问题,这两个优化问题具有同样的解:
    { m i n x    m a x λ , η    L ( x , λ , η ) s . t .    λ i ≥ 0 (6.1.3) \color{red}\left\{\begin{matrix} \underset{x}{min}\; \underset{\lambda ,\eta }{max}\; L(x,\lambda ,\eta )\\ s.t.\; \lambda _{i}\geq 0 \end{matrix}\right.\tag{6.1.3} {xminλ,ηmaxL(x,λ,η)s.t.λi0(6.1.3)

    证明:以不等式约束为例

    • 如果 x x x违反了约束 m i ( x ) ≤ 0 m_{i}(x)\leq 0 mi(x)0,即 m i ( x ) > 0 m_{i}(x)>0 mi(x)>0,由于 λ i ≥ 0 \lambda _{i}\geq 0 λi0 m a x λ    L = ∞ \underset{\lambda }{max}\; L=\infty λmaxL=
    • 如果 x x x符合约束 m i ( x ) ≤ 0 m_{i}(x)\leq 0 mi(x)0,由于 λ i ≥ 0 \lambda _{i}\geq 0 λi0 m a x λ    L ≠ ∞ ( 此 时 λ i = 0 ) \underset{\lambda }{max}\; L\neq \infty (此时\lambda _{i}=0) λmaxL=λi=0).
      因此 m i n x    m a x λ    L = m i n x { m a x λ    L ⏟ x 符 合 约 束 , ∞ ⏟ x 不 符 合 约 束 } \underset{x}{min}\; \underset{\lambda }{max}\; L=\underset{x}{min}\left \{\underset{x符合约束}{\underbrace{\underset{\lambda }{max}\; L}},\underset{x不符合约束}{\underbrace{\infty }}\right \} xminλmaxL=xminx λmaxL,x

6.1.2 对偶问题

  1. 对偶问题
    公式(6.1.3)原问题对偶问题
    { m a x λ , η    m i n x    L ( x , λ , η ) s . t .    λ i ≥ 0 (6.1.4) \color{red}\left\{\begin{matrix} \underset{\lambda ,\eta }{max}\; \underset{x}{min}\;L(x,\lambda ,\eta )\\ s.t.\; \lambda _{i}\geq 0 \end{matrix}\right.\tag{6.1.4} {λ,ηmaxxminL(x,λ,η)s.t.λi0(6.1.4)
    可以看到 原 问 题 是 关 于 x 的 函 数 , 对 偶 问 题 是 关 于 λ , η 的 函 数 \color{blue}原问题是关于x的函数,对偶问题是关于\lambda ,\eta的函数 xλ,η
  2. 弱对偶问题
    弱对偶问题有如下定理:
    m a x λ , η    m i n x    L ( x , λ , η ) ≤ m i n x    m a x λ , η    L ( x , λ , η ) (6.1.5) \color{red}\underset{\lambda ,\eta }{max}\; \underset{x}{min}\;L(x,\lambda ,\eta )\leq \underset{x}{min}\;\underset{\lambda ,\eta }{max}\;L(x,\lambda ,\eta )\tag{6.1.5} λ,ηmaxxminL(x,λ,η)xminλ,ηmaxL(x,λ,η)(6.1.5)
    弱对偶性可以理解为: 对 偶 问 题 ≤ 原 问 题 \color{blue}对偶问题 \leq 原问题

    我们假设:令 对 偶 问 题 ( d u a l ) 为 d , 原 问 题 ( p r i m a l ) 为 p \color{blue}对偶问题(dual)为d,原问题(primal)为p (dual)d(primal)p;则我们要证明: d ≤ p \color{blue}d\le p dp,即: m a x λ , η   m i n x   L ( x , λ , η ) ≤ m i n x   m a x λ , η   L ( x , λ , η ) \color{blue}\underset{\lambda,\eta}{max}\ \underset{x}{min} \ L(x, \lambda,\eta) \le \underset{x}{min} \ \underset{\lambda,\eta}{max} \ L(x, \lambda,\eta) λ,ηmax xmin L(x,λ,η)xmin λ,ηmax L(x,λ,η)
    可以从机器学习-白板推导系列(六)(1)中:凤头和鸡头的角度理解,也可以从以下证明理解:
    证明:

    1. L ( x , λ , η ) ≤ m a x λ , η   L ( x , λ , η ) L(x, \lambda,\eta) \le\underset{\lambda,\eta}{max} \ L(x, \lambda,\eta) L(x,λ,η)λ,ηmax L(x,λ,η)(原来的肯定小于最大的);
    2. m i n x   L ( x , λ , η ) ≤   L ( x , λ , η ) \underset{x}{min} \ L(x, \lambda,\eta) \le \ L(x, \lambda,\eta) xmin L(x,λ,η) L(x,λ,η)(最小的肯定小于原来的);
    3. 因此 m i n x   L ( x , λ , η ) ≤   L ( x , λ , η ) ≤ m a x λ , η   L ( x , λ , η ) \underset{x}{min} \ L(x, \lambda,\eta) \le \ L(x, \lambda,\eta) \le\underset{\lambda,\eta}{max} \ L(x, \lambda,\eta) xmin L(x,λ,η) L(x,λ,η)λ,ηmax L(x,λ,η)
    4. 则可写出:
      m i n x    L ( x , λ , η ) ⏟ A ( λ , η ) ≤ L ( x , λ , η ) ≤ m a x λ , η L ( x , λ , η ) ⏟ B ( x ) ⇒ A ( λ , η ) ≤ B ( x ) ⇒ A ( λ , η ) ≤ m i n    B ( x ) ⇒ m a x    A ( λ , η ) ≤ m i n    B ( x ) ⇒ m a x λ , η    m i n x    L ( x , λ , η ) ≤ L ( x , λ , η ) ≤ m i n x    m a x λ , η    L ( x , λ , η ) \underset{A(\lambda ,\eta )}{\underbrace{\underset{x}{min}\;L(x,\lambda ,\eta )}}\leq L(x,\lambda ,\eta )\leq \underset{B(x)}{ \underbrace{\underset{\lambda ,\eta }{max}L(x,\lambda ,\eta )}}\\ \Rightarrow A(\lambda ,\eta )\leq B(x)\\ \Rightarrow A(\lambda ,\eta )\leq min\; B(x)\\ \Rightarrow max\; A(\lambda ,\eta )\leq min\; B(x)\\ \Rightarrow \underset{\lambda ,\eta }{max}\;\underset{x}{min}\;L(x,\lambda ,\eta )\leq L(x,\lambda ,\eta )\leq \underset{x}{min}\;\underset{\lambda ,\eta }{max}\; L(x,\lambda ,\eta ) A(λ,η) xminL(x,λ,η)L(x,λ,η)B(x) λ,ηmaxL(x,λ,η)A(λ,η)B(x)A(λ,η)minB(x)maxA(λ,η)minB(x)λ,ηmaxxminL(x,λ,η)L(x,λ,η)xminλ,ηmaxL(x,λ,η)

6.2 对偶关系的几何解释

6.2.1 概述

  1. 问题概述
    假设约束优化问题是:
    { m i n x    f ( x ) , x ∈ R p s . t .    m ( x ) ≤ 0 (6.2.1) \left\{\begin{matrix} \underset{x}{min}\; f(x),x\in \mathbb{R}^{p}\\ s.t.\; m(x)\leq 0 \end{matrix}\right.\tag{6.2.1} {xminf(x),xRps.t.m(x)0(6.2.1)
    定 义 域 D 定义域D D d o m    f ∩ d o m    m (6.2.2) dom\; f\cap dom\; m\tag{6.2.2} domfdomm(6.2.2)
    对于上述约束优化问题,可以写出它的拉格朗日函数:
    L ( x , λ ) = f ( x ) + λ m ( x ) , λ ≥ 0 L(x,\lambda )=f(x)+\lambda m(x),\lambda \geq 0 L(x,λ)=f(x)+λm(x),λ0
    其对偶问题为: max ⁡ λ min ⁡ x   L ( x , λ ) (6.2.3) \underset {\lambda}{\max} \underset {x}{\min} \ L(x, \lambda)\tag{6.2.3} λmaxxmin L(x,λ)(6.2.3)
  2. 问题简化
    • p ∗ p^* p 为原问题: p ∗ = m i n    f ( x ) p^{*}=min\; f(x) p=minf(x)
    • d ∗ d^* d 为对偶问题: d ∗ = m a x λ    m i n x    L ( x , λ ) d^{*}=\underset{\lambda }{max}\; \underset{x}{min}\; L(x,\lambda ) d=λmaxxminL(x,λ)
    • 定义集合 G G G G = { ( m ( x ) , f ( x ) ) ∣ x ∈ D } = { ( u , t ) ∣ x ∈ D } (6.2.4) G=\left \{(m(x),f(x))|x\in D\right \}\\ =\left \{(u,t)|x\in D\right \}\tag{6.2.4} G={(m(x),f(x))xD}={(u,t)xD}(6.2.4)
      集合G在二维坐标系下表示的空间假设为下图:
      机器学习-白板推导系列(六)(2) - 约束优化问题_第1张图片

6.2.2 对偶关系

  1. p ∗ p^* p d ∗ d^* d 用集合表示
    • i n f inf inf表示求集合的下确界,则
      p ∗ = min ⁡ f ( x ) = min ⁡ t = inf ⁡ { t ∣ ( u , t ) ∈ G , u ≤ 0 } (6.2.5) \color{blue}p^*=\min f(x) = \min t=\inf\{t|(u,t)\in G, u\le 0\}\tag{6.2.5} p=minf(x)=mint=inf{t(u,t)G,u0}(6.2.5)
      d ∗ = max ⁡ λ min ⁡ x   L ( x , λ ) = max ⁡ λ min ⁡ x   ( t + λ u ) = max ⁡ λ   inf ⁡ { t + λ u ∣ ( u , t ) ∈ G } d^* = \underset {\lambda}{\max} \underset {x}{\min} \ L(x, \lambda) =\underset {\lambda}{\max} \underset {x}{\min}\ (t+\lambda u) =\underset {\lambda}{\max} \ \inf \{ t+\lambda u|(u,t)\in G\} d=λmaxxmin L(x,λ)=λmaxxmin (t+λu)=λmax inf{t+λu(u,t)G}
      g ( λ ) = inf ⁡ { t + λ u ∣ ( u , t ) ∈ G } g(\lambda)=\inf \{ t+\lambda u|(u,t)\in G\} g(λ)=inf{t+λu(u,t)G},因此:
      d ∗ = max ⁡ λ   g ( λ ) (6.2.6) \color{blue}d^*=\underset {\lambda}{\max} \ g(\lambda)\tag{6.2.6} d=λmax g(λ)(6.2.6)
  2. 弱对偶关系证明
    p ∗ p^* p d ∗ d^* d 用几何表示
    • p ∗ p^* p在图中可以表示为:
      机器学习-白板推导系列(六)(2) - 约束优化问题_第2张图片
    • d ∗ d^* d的表示
      t + λ u = b t+\lambda u=b t+λu=b表示以 − λ ( λ   ≥ 0 ) -\lambda(\lambda\ \ge 0) λ(λ 0)为斜率, 以 b b b为截距的直线,则:
      • b = 0 b=0 b=0时, t + λ u = b t+\lambda u=b t+λu=b为一条过原点的直线。
      • g ( λ ) g(\lambda) g(λ)即为与区域 G G G相切最小截距的直线 t + λ u = b ∗ t+\lambda u=b^* t+λu=b b ∗ ( g ( λ ) = b ∗ ) b^*(g(\lambda)=b^*) b(g(λ)=b)。如下图:
        机器学习-白板推导系列(六)(2) - 约束优化问题_第3张图片
    • 因此从图中可以看出 p ∗ > d ∗ p^*>d^* p>d
      机器学习-白板推导系列(六)(2) - 约束优化问题_第4张图片
      则弱对偶关系 p ∗ > d ∗ p^*>d^* p>d证毕: m a x λ , η    m i n x    L ( x , λ , η ) < m i n x    m a x λ , η    L ( x , λ , η ) (6.2.7) \color{red}\underset{\lambda ,\eta }{max}\; \underset{x}{min}\;L(x,\lambda ,\eta )< \underset{x}{min}\;\underset{\lambda ,\eta }{max}\;L(x,\lambda ,\eta )\tag{6.2.7} λ,ηmaxxminL(x,λ,η)<xminλ,ηmaxL(x,λ,η)(6.2.7)
  3. 强对偶关系
    在某些特殊情况下可以使得强对偶关系成立,在图中表示如下:
    机器学习-白板推导系列(六)(2) - 约束优化问题_第5张图片
    如果一个约束优化问题是凸优化问题且同时满足Slater条件,那么可以使得 d ∗ = p ∗ d^*=p^* d=p
    凸 优 化 + S l a t e r 条 件 ⇒ ( d ∗ = p ∗ ) \color{red}凸优化+Slater条件\Rightarrow (d^*=p^*) +Slater(d=p)
  • 但是 d ∗ = p ∗ d^*=p^* d=p并不能推出该约束优化问题是凸优化问题且同时满足Slater条件,这是因为Slater条件是 d ∗ = p ∗ d^*=p^* d=p的充分不必要条件,还有其他的条件可以使得约束优化问题满足 d ∗ = p ∗ d^*=p^* d=p
  • SVM是一个二次规划问题,其天生满足强对偶关系。

6.3 对偶关系之Slater Condition的解释

  1. Slater条件
    { ∃ x ^ ∈ r e l i n t   D s . t .    m i ( x ) < 0 ;    ∀ i = 1 , ⋯   , M (6.3.1) \begin{cases} \exists \hat x \in relint \ D\\ s.t. \ \ m_i(x)<0;\; \forall i=1,\cdots,M\end{cases}\tag{6.3.1} {x^relint Ds.t.  mi(x)<0;i=1,,M(6.3.1)

    relint是指域内,不包括边界。

  2. Slater条件说明
    有以下两点说明:
    • 对于大多数凸优化问题,Slater条件是成立的;
    • 放松的Slater条件:对于约束条件,如果有 k k k m i ( x ) m_{i}(x) mi(x)是仿射函数,那么只需要验证其他 M − k M-k Mk个条件即可。因为在定义域内寻找一个满足所有 m i ( x ) < 0 m_{i}(x)<0 mi(x)<0的点是比较困难的,因此 放 松 的 S l a t e r 条 件 放松的Slater条件 Slater会减少一些复杂度。

SVM中的问题,是凸二次优化,其约束条件是仿射函数,所以天然符合放松的slater条件。


6.4 对偶关系之KKT条件

6.4.1 概述

  1. 原问题
    原问题为:
    { m i n x    f ( x ) , x ∈ R p s . t .    m i ( x ) ≤ 0 , i = 1 , 2 , ⋯   , M s . t .    n j ( x ) = 0 , j = 1 , 2 , ⋯   , N (6.4.1) \left\{\begin{matrix} \underset{x}{min}\; f(x),x\in \mathbb{R}^{p}\\ s.t.\; m_{i}(x)\leq 0,i=1,2,\cdots ,M\\ s.t.\; n_{j}(x)=0,j=1,2,\cdots ,N \end{matrix}\right.\tag{6.4.1} xminf(x),xRps.t.mi(x)0,i=1,2,,Ms.t.nj(x)=0,j=1,2,,N(6.4.1)
    其中约束条件 m j m_j mj n j n_j nj可微
    令原问题为 p ∗ \color{blue}p^* p ,其最优解为 x ∗ \color{blue}x^* x
  2. 对偶问题
    对原问题使用拉格朗日乘子法:
    L ( x , λ , η ) = f ( x ) + ∑ i = 1 M λ i m i + ∑ j = 1 N η i n j (6.4.2) L(x, \lambda, \eta)=f(x) +\sum_{i=1}^M\lambda_im_i + \sum_{j=1}^N\eta_in_j\tag{6.4.2} L(x,λ,η)=f(x)+i=1Mλimi+j=1Nηinj(6.4.2)
    令: g ( λ , η ) = min ⁡ x L ( x , λ , η ) \color{blue}g(\lambda,\eta)=\underset {x}{\min} L(x, \lambda,\eta) g(λ,η)=xminL(x,λ,η)
    其对偶问题为:
    { m a x λ , η   g ( λ , η ) s . t .    λ i ≥ 0 (6.4.3) \begin{cases} \underset{\lambda,\eta}{max}\ g(\lambda, \eta)\\ s.t. \ \ \lambda_i \ge0 \end{cases}\tag{6.4.3} λ,ηmax g(λ,η)s.t.  λi0(6.4.3)
    令对偶问题最优解 d ∗ \color{blue}d^{*} d对应 λ ∗ \color{blue}\lambda ^{*} λ η ∗ \color{blue}\eta ^{*} η
  • 当目标优化问题为凸优化(convex)并满足slater条件,则可以推出其满足强对偶关系;
  • 强对偶与KKT条件互为充要条件,并通过KKT条件可以求解强对偶问题。
    则:
    c o n v e t + s l a t e r ⇒ s t r o n g   d u a l i t y ⇔ K K T \color{red}convet + slater \Rightarrow strong \ duality \Leftrightarrow KKT convet+slaterstrong dualityKKT

6.4.2 KKT条件

KKT条件分为三类:可行条件、互补松弛条件、梯度为0。即:
{ 可 行 条 件 : { m i ( x ) ≤ 0 n i ( x ) = 0 λ ∗ ≥ 0 互 补 松 弛 : λ i m i = 0 梯 度 为 0 : ∂ L ∂ x ∣ x = x ∗ = 0 (6.4.4) \color{red}\begin{cases} 可行条件: \begin{cases} m_i(x)\le 0\\ n_i(x)=0\\ \lambda^*\ge 0 \end{cases} \\ 互补松弛:\lambda_im_i=0 \\ 梯度为0:{\partial L\over \partial x}|_{x=x^*}=0 \end{cases}\tag{6.4.4} mi(x)0ni(x)=0λ0λimi=00xLx=x=0(6.4.4)

  1. 可行性
    需要满足可行性约束条件,并且需满足隐含条件 λ ∗ ≥ 0 \lambda^*\ge0 λ0,原因在6.1.1中介绍过。
  2. 互补松弛条件和梯度为0
    d ∗ = m a x λ , η    g ( λ , η ) = g ( λ ∗ , η ∗ ) = m i n x    L ( x , λ ∗ , η ∗ ) ≤ L ( x ∗ , λ ∗ , η ∗ ) = f ( x ∗ ) + ∑ i = 1 M λ i ∗ m i ( x ∗ ) + ∑ j = 1 N η j ∗ n j ( x ∗ ) ⏟ = 0 = f ( x ∗ ) + ∑ i = 1 M λ i ∗ m i ( x ∗ ) ⏟ ≤ 0 ≤ f ( x ∗ ) = p ∗ d^{*}=\underset{\lambda ,\eta }{max}\; g(\lambda ,\eta ) = g(\lambda ^{*},\eta ^{*})\\ =\underset{x}{min}\; L(x,\lambda ^{*},\eta ^{*}) \leq L(x^{*},\lambda ^{*},\eta ^{*})\\ =f(x^{*})+\sum_{i=1}^{M}\lambda _{i}^{*}m_{i}(x^{*})+\underset{=0}{\underbrace{\sum_{j=1}^{N}\eta _{j}^{*}n_{j}(x^{*})}}\\ =f(x^{*})+\underset{\leq 0}{\underbrace{\sum_{i=1}^{M}\lambda _{i}^{*}m_{i}(x^{*})}} \leq f(x^{*}) =p^{*} d=λ,ηmaxg(λ,η)=g(λ,η)=xminL(x,λ,η)L(x,λ,η)=f(x)+i=1Mλimi(x)+=0 j=1Nηjnj(x)=f(x)+0 i=1Mλimi(x)f(x)=p
    因为 d ∗ = p ∗ d^{*}=p^{*} d=p,所以上式中两个 ≤ \leq 都必须取等号:
    • 首先 m i n x    L ( x , λ ∗ , η ∗ ) = L ( x ∗ , λ ∗ , η ∗ ) \underset{x}{min}\; L(x,\lambda ^{*},\eta ^{*})=L(x^{*},\lambda ^{*},\eta ^{*}) xminL(x,λ,η)=L(x,λ,η),则可以得出: ∂ L ( x , λ ∗ , η ∗ ) ∂ x ∣ x = x ∗ = 0 \color{blue}\left.\begin{matrix} \frac{\partial L(x,\lambda ^{*},\eta ^{*})}{\partial x} \end{matrix}\right|_{x=x^{*}}=0 xL(x,λ,η)x=x=0
    • 然后 f ( x ∗ ) + ∑ i = 1 M λ i ∗ m i ( x ∗ ) = f ( x ∗ ) f(x^{*})+\sum_{i=1}^{M}\lambda _{i}^{*}m_{i}(x^{*})=f(x^{*}) f(x)+i=1Mλimi(x)=f(x),则可以得出: ∑ i = 1 M λ i ∗ m i ( x ∗ ) = 0 \sum_{i=1}^{M}\lambda _{i}^{*}m_{i}(x^{*})=0 i=1Mλimi(x)=0,由于 λ i ∗ m i ( x ∗ ) ≤ 0 \lambda _{i}^{*}m_{i}(x^{*})\leq 0 λimi(x)0,要使得 ∑ i = 1 M λ i ∗ m i ( x ∗ ) = 0 \sum_{i=1}^{M}\lambda _{i}^{*}m_{i}(x^{*})=0 i=1Mλimi(x)=0,则必有 λ i ∗ m i ( x ∗ ) = 0 \color{blue}\lambda _{i}^{*}m_{i}(x^{*})=0 λimi(x)=0

以上说明了KKT条件为什么与强对偶关系互为充要条件。即: c o n v e t + s l a t e r ⇒ s t r o n g   d u a l i t y ⇔ K K T (6.4.5) \color{red}convet + slater \Rightarrow strong \ duality \Leftrightarrow KKT\tag{6.4.5} convet+slaterstrong dualityKKT(6.4.5)


6.5 总结

  1. 硬SVM
    对于严格可分的数据集,可以使用硬间隔SVM选择一个超平面,保证所有数据到这个超平面的距离最大。由于此问题为凸优化并且所有的约束条件都是仿射函数,故满足slater条件,可以转化为对偶问题进行求解:
    { max ⁡ λ   − 1 2 ∑ i = 1 N ∑ j = 1 N λ i λ j y i y j x i T x j + ∑ i = 1 N λ i s . t .    λ i ≥ 0          ∑ i = 1 N λ i y i = 0 (6.5.1) \begin{cases} \underset{\lambda}{\max} \ -{1\over2}\sum_{i=1}^N\sum_{j=1}^N \lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum_{i=1}^N\lambda_i\\ s.t. \ \ \lambda_i\ge 0 \\ \ \ \ \ \ \ \ \ \sum_{i=1}^N \lambda_iy_i=0 \end{cases}\tag{6.5.1} λmax 21i=1Nj=1NλiλjyiyjxiTxj+i=1Nλis.t.  λi0        i=1Nλiyi=0(6.5.1)
    求解时需要使用KKT条件(其与强对偶关系互为充要条件):
    { ∂ L ∂ w = 0 , ∂ L ∂ b = 0 , ∂ L ∂ λ = 0 λ i ( 1 − y i ( w T x i + b ) ) = 0 λ i ≥ 0 1 − y i ( w T x i + b ) ≤ 0 (6.5.2) \begin{cases} {\partial L \over \partial w}=0, {\partial L \over \partial b}=0, {\partial L \over \partial \lambda}=0\\ \lambda_i(1-y_i(w^Tx_i+b))=0\\ \lambda_i \ge 0\\ 1-y_i(w^Tx_i+b) \le0 \end{cases}\tag{6.5.2} wL=0,bL=0,λL=0λi(1yi(wTxi+b))=0λi01yi(wTxi+b)0(6.5.2)
    求解可得:
    • w ∗ = ∑ i = 1 N λ i y i x i \color{red}w^*=\sum_{i=1}^N\lambda_iy_ix_i w=i=1Nλiyixi
    • b ∗ = y k − ∑ i = 1 N λ i y i x i T x k \color{red}b^*=y_k-\sum_{i=1}^N\lambda_iy_ix_i ^Tx_k b=yki=1NλiyixiTxk
  2. 软SVM
    当数据集中有噪声时,可以采用软间隔SVM,允许有一点小错误,在硬间隔SVM中加入一个错误项,即:
    { min ⁡ w , b 1 2 w T w + C ∑ i = 1 N ξ i s . t .   y i ( w T x i + b ) ≥ 1 − ξ i          ξ i ≥ 0 (6.5.3) \begin{cases} \underset{w,b}{\min}{1 \over 2}w^Tw+C\sum_{i=1}^N\xi_i\\ s.t. \ y_i(w^Tx_i+b)\ge 1-\xi_i\\ \ \ \ \ \ \ \ \ \xi_i \ge 0 \end{cases}\tag{6.5.3} w,bmin21wTw+Ci=1Nξis.t. yi(wTxi+b)1ξi        ξi0(6.5.3)
    可同样使用对偶问题进行求解。

你可能感兴趣的:(机器学习-白板推导,支持向量机,机器学习)