详解SVM

本文目录

  • 详解SVM
    • 一、什么是SVM
      • 1. SVM定义
      • 2. 函数间隔和几何间隔
        • (1)函数间隔
        • (2)几何间隔
      • 3. 支持向量
    • 二、SVM求解
      • 1. 问题描述
      • 2. SVM的对偶形式
        • (1)对偶形式
        • (2)求解
        • (3)KKT条件

详解SVM

一、什么是SVM

SVM是一种二类分类模型,与感知机不同的是,他的基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机还包括核技巧,使他成为实质上的非线性分类器。
一句话总结:SVM就是通过监督学习来解决二分类问题

1. SVM定义

线性可分支持向量机:给定线性可分训练数据集,通过间隔最大化或等价的求解相应的凸二次规划问题学习得到的分离超平面为
w ∗ ⋅ x + b ∗ = 0 w^{*} \cdot x + b^{*} = 0 wx+b=0
以及相应的分类决策函数
f ( x ) = s i g n ( w ∗ ⋅ x + b ∗ ) f(x) = sign(w^{*} \cdot x + b^{*}) f(x)=sign(wx+b)
称为线性可分支持向量机
如下图所示,红色代表正例,蓝色代表反例,训练数据集线性可分,有无数条直线能够将两类数据正确划分,而SVM就是能将两类数据正确划分并且间隔最大的直线

详解SVM_第1张图片

2. 函数间隔和几何间隔

首先我们定义任意一点 ( x , y ) (x, y) (x,y)到超平面 w T x + b = 0 w^{T}x + b = 0 wTx+b=0的距离
∣ w T x + b ∣ ∣ ∣ w ∣ ∣ \frac{|w^{T}x+b|}{||w||} wwTx+b
这个形式就是点到平面的距离公式,设一个点的坐标为 ( x 0 , y 0 , z 0 ) (x_{0}, y_{0}, z_{0}) (x0,y0,z0),平面为 A x + B y + C z + D = 0 Ax+By+Cz+D=0 Ax+By+Cz+D=0,则点到平面的距离为 d = ∣ A x 0 + B y 0 + C z 0 + D A 2 + B 2 + C 2 ∣ d = |\frac{Ax_{0}+By_{0}+Cz_{0}+D}{\sqrt{A^{2}+B^{2}+C^{2}}}| d=A2+B2+C2 Ax0+By0+Cz0+D

(1)函数间隔

定义函数间隔(functional margin)
γ ^ = y ( w T x + b ) = y f ( x ) \hat{\gamma} = y(w^{T}x+b) = yf(x) γ^=y(wTx+b)=yf(x)
超平面关于训练数据集 T T T的函数间隔为超平面 ( w , b ) (w, b) (w,b)关于 T T T中所有样本点 ( x i , y i ) (x_{i}, y_{i}) (xi,yi)的函数间隔最小值,其中 x x x是特征, y y y是标签,则
γ ^ = m i n γ ^ i ( i = 1 , 2 , . . . , n ) \hat{\gamma} = min\hat{\gamma}_{i}(i = 1, 2, ... ,n) γ^=minγ^i(i=1,2,...,n)
上述函数间隔虽然可以表示分类预测的正确性和确信度,但是分离超平面中使用函数间隔是不可取的,因为只要成比例的改变 w , b w,b w,b,函数间隔就会变味原来的 n n n倍,因此我们需要加入某些约束,例如对 w w w加入某些约束,就得到了下面的几何间隔

(2)几何间隔

定义几何间隔(geometrical margin)
γ = γ ^ ∣ ∣ w ∣ ∣ = y ( w T x + b ) ∣ ∣ w ∣ ∣ \gamma = \frac{\hat{\gamma}}{||w||} = \frac{y(w^{T}x+b)}{||w||} γ=wγ^=wy(wTx+b)
此时成比例的改变 w , b w,b w,b,几何间隔也不会变化了

注意:为什么 w , b w,b w,b变化的时候影响函数间隔会对我们的分类产生影响?这是因为 w , b w,b w,b成比例的变化时,我们的超平面是不变的,但是函数间隔会变化,这样会影响我们的margin,影响分类
w T x + b = 0     w , b → × 10 10 w T x + 10 b = 0     令 w ∗ = 10 w      b ∗ = 10 b w ∗ T x + b ∗ = 0     与 上 述 一 致 , 不 变 w^{T}x + b = 0 ~~~ w,b\rightarrow \times10 \\ 10w^{T}x + 10b = 0 ~~~ 令w^{*}=10w ~~~~ b^{*}=10b \\ w^{*T}x + b^{*} = 0 ~~~ 与上述一致,不变 wTx+b=0   w,b×1010wTx+10b=0   w=10w    b=10bwTx+b=0   

3. 支持向量

支持向量(support vector)就是在分类过程中支持margin的那些点,他们到超平面的距离相等,下图中用黑色圈圈出的点就是support vector

详解SVM_第2张图片

二、SVM求解

1. 问题描述

SVM的方法就是间隔最大化,也就是说求解能够正确划分训练数据集并且几何间隔最大的分离超平面,这里只讨论硬间隔最大化,也就是说训练数据集线性可分并且间隔相对较大;与之对应的是软间隔最大化,表示训练数据集近似可分

间隔最大化的直观解释是:对训练数据集找到几何间隔最大的超平面以充分大的确信度对训练数据进行分类,即不仅将正负实例分开,而且对最难分的实例点(离超平面最近的点)也有足够大的确信度将他们分开,具有很好的分类预测能力

最大间隔分类超平面
目的:最大化间隔并使得分类点大于此间隔
max ⁡ w , b     γ      s t .   y i ( w T x i + b ) ∣ ∣ w ∣ ∣ ≥ γ    i = 1 , . . . , n \underset {w,b}{\operatorname {max}} ~~~ \gamma~~~~st.~\frac{y_{i}(w^{T}x_{i}+b)}{||w||} \geq \gamma~~i=1,...,n w,bmax   γ    st. wyi(wTxi+b)γ  i=1,...,n
考虑到几何间隔 γ \gamma γ和函数间隔 γ ^ \hat{\gamma} γ^的关系,变形:
max ⁡ w , b     γ ^ ∣ ∣ w ∣ ∣     s t .    y i ( w T x i + b ) ≥ γ ^    i = 1 , . . . , n \underset {w,b}{\operatorname {max}} ~~~\frac{ \hat{\gamma}}{||w||}~~~st.~~y_{i}(w^{T}x_{i}+b) \geq \hat{\gamma}~~i=1,...,n w,bmax   wγ^   st.  yi(wTxi+b)γ^  i=1,...,n
为了简化计算,取函数间隔 γ ^ = 1 \hat{\gamma}=1 γ^=1,得到
max ⁡ w , b     1 ∣ ∣ w ∣ ∣     s t .     y i ( w T x i + b ) ≥ 1    i = 1 , . . . , n \underset {w,b}{\operatorname {max}} ~~~\frac{1}{||w||}~~~st.~~~y_{i}(w^{T}x_{i}+b) \geq 1~~i=1,...,n w,bmax   w1   st.   yi(wTxi+b)1  i=1,...,n
上式 max ⁡ w , b 1 ∣ ∣ w ∣ ∣ \underset {w,b}{\operatorname {max}}\frac{1}{||w||} w,bmaxw1等价于 min ⁡ w , b 1 2 ∣ ∣ w ∣ ∣ 2 \underset {w,b}{\operatorname {min}}\frac{1}{2}||w||^{2} w,bmin21w2,得到:
min ⁡ w , b 1 2 ∣ ∣ w ∣ ∣ 2     s t .     y i ( w T x i + b ) − 1 ≥ 0    i = 1 , . . . , n \underset {w,b}{\operatorname {min}}\frac{1}{2}||w||^{2} ~~~st.~~~y_{i}(w^{T}x_{i}+b) - 1 \geq 0~~i=1,...,n w,bmin21w2   st.   yi(wTxi+b)10  i=1,...,n
上述问题就是一个凸优化问题,下面利用对偶的方法来求解此问题

2. SVM的对偶形式

(1)对偶形式

引入拉格朗日对偶问题

min ⁡ w , b 1 2 ∣ ∣ w ∣ ∣ 2     s t .     y i ( w T x i + b ) − 1 ≥ 0    i = 1 , . . . , n    L ( w , b , α ) = 1 2 ∣ ∣ w ∣ ∣ 2 − ∑ i = 1 n α i ( y i ( w T x i + b ) − 1 )     i = 1 , . . . , n \underset {w,b}{\operatorname {min}}\frac{1}{2}||w||^{2} ~~~st.~~~y_{i}(w^{T}x_{i}+b) - 1 \geq 0~~i=1,...,n \\ ~~ \\ L(w, b, \alpha) = \frac{1}{2}||w||^{2} - \sum_{i=1}^{n}\alpha_{i}(y_{i}(w^{T}x_{i}+b) - 1)~~~i=1,...,n w,bmin21w2   st.   yi(wTxi+b)10  i=1,...,n  L(w,b,α)=21w2i=1nαi(yi(wTxi+b)1)   i=1,...,n

Θ ( w ) = max ⁡ α i ≥ 0 L ( w , b , α ) \Theta(w)=\underset {\alpha_{i}\geq0}{\operatorname {max}} L(w,b,\alpha) Θ(w)=αi0maxL(w,b,α),此时的 Θ ( w ) = 1 2 ∣ ∣ w ∣ ∣ 2 \Theta(w)= \frac{1}{2}||w||^{2} Θ(w)=21w2,当然我们有约束条件,就是 { y i ( w T x i + b ) − 1 ≥ 0    i = 1 , . . . , n α i ≥ 0    i = 1 , . . . , n \left\{\begin{matrix} y_{i}(w^{T}x_{i}+b) - 1\geq0~~i=1,...,n \\ \alpha_{i}\geq 0 ~~i=1,...,n \end{matrix}\right. {yi(wTxi+b)10  i=1,...,nαi0  i=1,...,n,当不满足约束条件时令 Θ ( w ) = ∞ \Theta(w) = \infty Θ(w)=,此时目标函数变为

min ⁡ w , b Θ ( w ) = min ⁡ w , b   max ⁡ α i ≥ 0 L ( w , b , α ) = p ∗    d u a l   p r o b l e m : max ⁡ α i ≥ 0   min ⁡ w , b L ( w , b , α ) = d ∗ \underset {w,b}{\operatorname {min}}\Theta(w) = \underset {w, b}{\operatorname {min}} ~ \underset {\alpha_{i}\geq0}{\operatorname {max}} L(w,b,\alpha) = p^{*} \\ ~~ \\ dual~problem:\underset {\alpha_{i}\geq0}{\operatorname {max}} ~ \underset {w,b}{\operatorname {min}} L(w,b,\alpha) = d^{*} w,bminΘ(w)=w,bmin αi0maxL(w,b,α)=p  dual problem:αi0max w,bminL(w,b,α)=d

其中 d ∗ ≤ p ∗ d^{*} \leq p^{*} dp,所以我们现在求解 L L L关于 w , b w,b w,b的最小值,再求关于 α \alpha α的最大值,转化为对偶问题的原因是方便求解

(2)求解

  • 求解 min ⁡ w , b L ( w , b , α ) \underset {w,b}{\operatorname {min}} L(w,b,\alpha) w,bminL(w,b,α)

▽ w L ( w , b , α ) = w − ∑ i = 1 N α i y i x i = 0 ▽ b L ( w , b , α ) = − ∑ i = 1 N α i y i = 0 \bigtriangledown_{w}L(w, b, \alpha) = w - \sum_{i=1}^{N}\alpha_{i}y_{i}x_{i}=0 \\ \bigtriangledown_{b}L(w, b, \alpha) = - \sum_{i=1}^{N}\alpha_{i}y_{i}=0 wL(w,b,α)=wi=1Nαiyixi=0bL(w,b,α)=i=1Nαiyi=0

得到

w = ∑ i = 1 N α i y i x i ∑ i = 1 N α i y i = 0 w = \sum_{i=1}^{N}\alpha_{i}y_{i}x_{i} \\ \sum_{i=1}^{N}\alpha_{i}y_{i}=0 w=i=1Nαiyixii=1Nαiyi=0

带入 L ( w , b , α ) = 1 2 ∣ ∣ w ∣ ∣ 2 − ∑ i = 1 n α i ( y i ( w T x i + b ) − 1 )     i = 1 , . . . , n L(w, b, \alpha) = \frac{1}{2}||w||^{2} - \sum_{i=1}^{n}\alpha_{i}(y_{i}(w^{T}x_{i}+b) - 1)~~~i=1,...,n L(w,b,α)=21w2i=1nαi(yi(wTxi+b)1)   i=1,...,n得到

min ⁡ w , b L ( w , b , α ) = L ( α ) = − 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 n α i \underset {w,b}{\operatorname {min}} L(w,b,\alpha) = L(\alpha) = -\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}\cdot x_{j})+\sum_{i=1}^{n}\alpha_{i} w,bminL(w,b,α)=L(α)=21i=1nj=1nαiαjyiyj(xixj)+i=1nαi

  • 求解 max ⁡ α L ( α ) \underset {\alpha}{\operatorname {max}} L(\alpha) αmaxL(α)

max ⁡ α L ( α ) = − 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 n α i s t . ∑ i = 1 N α i y i = 0     α i ≥ 0     i = 1 , 2 , . . . , N \underset {\alpha}{\operatorname {max}} L(\alpha) = -\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}\cdot x_{j})+\sum_{i=1}^{n}\alpha_{i} \\ st. \sum_{i=1}^{N}\alpha_{i}y_{i}=0 ~~~ \alpha_{i}\geq 0 ~~~ i=1,2,...,N αmaxL(α)=21i=1nj=1nαiαjyiyj(xixj)+i=1nαist.i=1Nαiyi=0   αi0   i=1,2,...,N

一般来说我们求解的是目标函数的最小值,所以将上述函数加上负号,修改为:

min ⁡ α L ( α ) = 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 n α i s t . ∑ i = 1 N α i y i = 0     α i ≥ 0     i = 1 , 2 , . . . , N \underset {\alpha}{\operatorname {min}} L(\alpha) = \frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}\cdot x_{j}) - \sum_{i=1}^{n}\alpha_{i} \\ st. \sum_{i=1}^{N}\alpha_{i}y_{i}=0 ~~~ \alpha_{i}\geq 0 ~~~ i=1,2,...,N αminL(α)=21i=1nj=1nαiαjyiyj(xixj)i=1nαist.i=1Nαiyi=0   αi0   i=1,2,...,N

(3)KKT条件

在前两部分中我们已经将最初的优化问题 min ⁡ w , b 1 2 ∣ ∣ w ∣ ∣ 2 \underset {w,b}{\operatorname {min}}\frac{1}{2}||w||^{2} w,bmin21w2转化为 min ⁡ α L ( α ) = 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 n α i \underset {\alpha}{\operatorname {min}} L(\alpha) = \frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}\cdot x_{j}) - \sum_{i=1}^{n}\alpha_{i} αminL(α)=21i=1nj=1nαiαjyiyj(xixj)i=1nαi,接下来我们用KKT条件来对 α \alpha α求解

{ ▽ w L ( w ∗ , b ∗ , α ∗ ) = w ∗ − ∑ i = 1 N α i ∗ y i x i = 0 ▽ b L ( w ∗ , b ∗ , α ∗ ) = − ∑ i = 1 N α i ∗ y i = 0 α i ( y i ( w ⋅ x i + b ) − 1 ) = 0 y i ( w ⋅ x i + b ) − 1 ≥ 0 α i ≥ 0     i = 1 , 2 , . . . , N \left\{\begin{array}{l} \bigtriangledown_{w}L(w^{*}, b^{*}, \alpha^{*}) = w^{*} - \sum_{i=1}^{N}\alpha_{i}^{*}y_{i}x_{i}=0 \\ \bigtriangledown_{b}L(w^{*}, b^{*}, \alpha^{*}) = - \sum_{i=1}^{N}\alpha_{i}^{*}y_{i}=0 \\ \alpha_{i}(y_{i}(w\cdot x_{i}+b) - 1) = 0 \\ y_{i}(w\cdot x_{i}+b) - 1\geq0 \\ \alpha_{i} \geq 0 ~~~ i=1,2,...,N \end{array}\right. wL(w,b,α)=wi=1Nαiyixi=0bL(w,b,α)=i=1Nαiyi=0αi(yi(wxi+b)1)=0yi(wxi+b)10αi0   i=1,2,...,N

w ∗ w^{*} w可以直接算出,将 w ∗ w^{*} w带入 y j ( w ∗ ⋅ x j + b ∗ ) − 1 ) = 0 y_{j}(w^{*}\cdot x_{j}+b^{*}) - 1) = 0 yj(wxj+b)1)=0可算出 b ∗ b^{*} b

  • w ∗ = ∑ i = 1 N α i ∗ y i x i w^{*} = \sum_{i=1}^{N}\alpha_{i}^{*}y_{i}x_{i} w=i=1Nαiyixi,至少一个 α i > 0 \alpha_{i}> 0 αi>0
  • b ∗ = y j − ∑ i = 1 N α i ∗ y i ( x i ⋅ x j ) b^{*} = y_{j} - \sum_{i=1}^{N}\alpha_{i}^{*}y_{i}(x_{i}\cdot x_{j}) b=yji=1Nαiyi(xixj)

此时我们已经得到了 w ∗ w^{*} w b ∗ b^{*} b,又因为我们的超平面方程为 w T x + b = 0 w^{T}x + b = 0 wTx+b=0,所以得到

∑ i = 1 N α i ∗ y i x i ⋅ x + b ∗ = 0 d e c i s i o n   f u n c t i o n : f ( x ) = s i g n ( ∑ i = 1 N α i ∗ y i ( x i ⋅ x ) + b ∗ ) \sum_{i=1}^{N}\alpha_{i}^{*}y_{i}x_{i}\cdot x + b^{*} = 0 \\ decision~function:f(x) = sign(\sum_{i=1}^{N}\alpha_{i}^{*}y_{i}(x_{i}\cdot x) + b^{*}) i=1Nαiyixix+b=0decision function:f(x)=sign(i=1Nαiyi(xix)+b)

从上式可以看出,分类决策函数只依赖于输入 x x x以及训练样本输入的内积,并且 d e c i s i o n   f u n c t i o n decision ~ function decision function就被称为线性可分支持向量机的对偶形式

你可能感兴趣的:(Statistic,支持向量机,机器学习,人工智能)