SVM是一种二类分类模型,与感知机不同的是,他的基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机还包括核技巧,使他成为实质上的非线性分类器。
一句话总结:SVM就是通过监督学习来解决二分类问题
线性可分支持向量机:给定线性可分训练数据集,通过间隔最大化或等价的求解相应的凸二次规划问题学习得到的分离超平面为
w ∗ ⋅ x + b ∗ = 0 w^{*} \cdot x + b^{*} = 0 w∗⋅x+b∗=0
以及相应的分类决策函数
f ( x ) = s i g n ( w ∗ ⋅ x + b ∗ ) f(x) = sign(w^{*} \cdot x + b^{*}) f(x)=sign(w∗⋅x+b∗)
称为线性可分支持向量机
如下图所示,红色代表正例,蓝色代表反例,训练数据集线性可分,有无数条直线能够将两类数据正确划分,而SVM就是能将两类数据正确划分并且间隔最大的直线
首先我们定义任意一点 ( x , y ) (x, y) (x,y)到超平面 w T x + b = 0 w^{T}x + b = 0 wTx+b=0的距离
∣ w T x + b ∣ ∣ ∣ w ∣ ∣ \frac{|w^{T}x+b|}{||w||} ∣∣w∣∣∣wTx+b∣
这个形式就是点到平面的距离公式,设一个点的坐标为 ( x 0 , y 0 , z 0 ) (x_{0}, y_{0}, z_{0}) (x0,y0,z0),平面为 A x + B y + C z + D = 0 Ax+By+Cz+D=0 Ax+By+Cz+D=0,则点到平面的距离为 d = ∣ A x 0 + B y 0 + C z 0 + D A 2 + B 2 + C 2 ∣ d = |\frac{Ax_{0}+By_{0}+Cz_{0}+D}{\sqrt{A^{2}+B^{2}+C^{2}}}| d=∣A2+B2+C2Ax0+By0+Cz0+D∣
定义函数间隔(functional margin)
γ ^ = y ( w T x + b ) = y f ( x ) \hat{\gamma} = y(w^{T}x+b) = yf(x) γ^=y(wTx+b)=yf(x)
超平面关于训练数据集 T T T的函数间隔为超平面 ( w , b ) (w, b) (w,b)关于 T T T中所有样本点 ( x i , y i ) (x_{i}, y_{i}) (xi,yi)的函数间隔最小值,其中 x x x是特征, y y y是标签,则
γ ^ = m i n γ ^ i ( i = 1 , 2 , . . . , n ) \hat{\gamma} = min\hat{\gamma}_{i}(i = 1, 2, ... ,n) γ^=minγ^i(i=1,2,...,n)
上述函数间隔虽然可以表示分类预测的正确性和确信度,但是分离超平面中使用函数间隔是不可取的,因为只要成比例的改变 w , b w,b w,b,函数间隔就会变味原来的 n n n倍,因此我们需要加入某些约束,例如对 w w w加入某些约束,就得到了下面的几何间隔
定义几何间隔(geometrical margin)
γ = γ ^ ∣ ∣ w ∣ ∣ = y ( w T x + b ) ∣ ∣ w ∣ ∣ \gamma = \frac{\hat{\gamma}}{||w||} = \frac{y(w^{T}x+b)}{||w||} γ=∣∣w∣∣γ^=∣∣w∣∣y(wTx+b)
此时成比例的改变 w , b w,b w,b,几何间隔也不会变化了
注意:为什么 w , b w,b w,b变化的时候影响函数间隔会对我们的分类产生影响?这是因为 w , b w,b w,b成比例的变化时,我们的超平面是不变的,但是函数间隔会变化,这样会影响我们的margin,影响分类
w T x + b = 0 w , b → × 10 10 w T x + 10 b = 0 令 w ∗ = 10 w b ∗ = 10 b w ∗ T x + b ∗ = 0 与 上 述 一 致 , 不 变 w^{T}x + b = 0 ~~~ w,b\rightarrow \times10 \\ 10w^{T}x + 10b = 0 ~~~ 令w^{*}=10w ~~~~ b^{*}=10b \\ w^{*T}x + b^{*} = 0 ~~~ 与上述一致,不变 wTx+b=0 w,b→×1010wTx+10b=0 令w∗=10w b∗=10bw∗Tx+b∗=0 与上述一致,不变
支持向量(support vector)就是在分类过程中支持margin的那些点,他们到超平面的距离相等,下图中用黑色圈圈出的点就是support vector
SVM的方法就是间隔最大化,也就是说求解能够正确划分训练数据集并且几何间隔最大的分离超平面,这里只讨论硬间隔最大化,也就是说训练数据集线性可分并且间隔相对较大;与之对应的是软间隔最大化,表示训练数据集近似可分
间隔最大化的直观解释是:对训练数据集找到几何间隔最大的超平面以充分大的确信度对训练数据进行分类,即不仅将正负实例分开,而且对最难分的实例点(离超平面最近的点)也有足够大的确信度将他们分开,具有很好的分类预测能力
最大间隔分类超平面
目的:最大化间隔并使得分类点大于此间隔
max w , b γ s t . y i ( w T x i + b ) ∣ ∣ w ∣ ∣ ≥ γ i = 1 , . . . , n \underset {w,b}{\operatorname {max}} ~~~ \gamma~~~~st.~\frac{y_{i}(w^{T}x_{i}+b)}{||w||} \geq \gamma~~i=1,...,n w,bmax γ st. ∣∣w∣∣yi(wTxi+b)≥γ i=1,...,n
考虑到几何间隔 γ \gamma γ和函数间隔 γ ^ \hat{\gamma} γ^的关系,变形:
max w , b γ ^ ∣ ∣ w ∣ ∣ s t . y i ( w T x i + b ) ≥ γ ^ i = 1 , . . . , n \underset {w,b}{\operatorname {max}} ~~~\frac{ \hat{\gamma}}{||w||}~~~st.~~y_{i}(w^{T}x_{i}+b) \geq \hat{\gamma}~~i=1,...,n w,bmax ∣∣w∣∣γ^ st. yi(wTxi+b)≥γ^ i=1,...,n
为了简化计算,取函数间隔 γ ^ = 1 \hat{\gamma}=1 γ^=1,得到
max w , b 1 ∣ ∣ w ∣ ∣ s t . y i ( w T x i + b ) ≥ 1 i = 1 , . . . , n \underset {w,b}{\operatorname {max}} ~~~\frac{1}{||w||}~~~st.~~~y_{i}(w^{T}x_{i}+b) \geq 1~~i=1,...,n w,bmax ∣∣w∣∣1 st. yi(wTxi+b)≥1 i=1,...,n
上式 max w , b 1 ∣ ∣ w ∣ ∣ \underset {w,b}{\operatorname {max}}\frac{1}{||w||} w,bmax∣∣w∣∣1等价于 min w , b 1 2 ∣ ∣ w ∣ ∣ 2 \underset {w,b}{\operatorname {min}}\frac{1}{2}||w||^{2} w,bmin21∣∣w∣∣2,得到:
min w , b 1 2 ∣ ∣ w ∣ ∣ 2 s t . y i ( w T x i + b ) − 1 ≥ 0 i = 1 , . . . , n \underset {w,b}{\operatorname {min}}\frac{1}{2}||w||^{2} ~~~st.~~~y_{i}(w^{T}x_{i}+b) - 1 \geq 0~~i=1,...,n w,bmin21∣∣w∣∣2 st. yi(wTxi+b)−1≥0 i=1,...,n
上述问题就是一个凸优化问题,下面利用对偶的方法来求解此问题
引入拉格朗日对偶问题
min w , b 1 2 ∣ ∣ w ∣ ∣ 2 s t . y i ( w T x i + b ) − 1 ≥ 0 i = 1 , . . . , n L ( w , b , α ) = 1 2 ∣ ∣ w ∣ ∣ 2 − ∑ i = 1 n α i ( y i ( w T x i + b ) − 1 ) i = 1 , . . . , n \underset {w,b}{\operatorname {min}}\frac{1}{2}||w||^{2} ~~~st.~~~y_{i}(w^{T}x_{i}+b) - 1 \geq 0~~i=1,...,n \\ ~~ \\ L(w, b, \alpha) = \frac{1}{2}||w||^{2} - \sum_{i=1}^{n}\alpha_{i}(y_{i}(w^{T}x_{i}+b) - 1)~~~i=1,...,n w,bmin21∣∣w∣∣2 st. yi(wTxi+b)−1≥0 i=1,...,n L(w,b,α)=21∣∣w∣∣2−i=1∑nαi(yi(wTxi+b)−1) i=1,...,n
令 Θ ( w ) = max α i ≥ 0 L ( w , b , α ) \Theta(w)=\underset {\alpha_{i}\geq0}{\operatorname {max}} L(w,b,\alpha) Θ(w)=αi≥0maxL(w,b,α),此时的 Θ ( w ) = 1 2 ∣ ∣ w ∣ ∣ 2 \Theta(w)= \frac{1}{2}||w||^{2} Θ(w)=21∣∣w∣∣2,当然我们有约束条件,就是 { y i ( w T x i + b ) − 1 ≥ 0 i = 1 , . . . , n α i ≥ 0 i = 1 , . . . , n \left\{\begin{matrix} y_{i}(w^{T}x_{i}+b) - 1\geq0~~i=1,...,n \\ \alpha_{i}\geq 0 ~~i=1,...,n \end{matrix}\right. {yi(wTxi+b)−1≥0 i=1,...,nαi≥0 i=1,...,n,当不满足约束条件时令 Θ ( w ) = ∞ \Theta(w) = \infty Θ(w)=∞,此时目标函数变为
min w , b Θ ( w ) = min w , b max α i ≥ 0 L ( w , b , α ) = p ∗ d u a l p r o b l e m : max α i ≥ 0 min w , b L ( w , b , α ) = d ∗ \underset {w,b}{\operatorname {min}}\Theta(w) = \underset {w, b}{\operatorname {min}} ~ \underset {\alpha_{i}\geq0}{\operatorname {max}} L(w,b,\alpha) = p^{*} \\ ~~ \\ dual~problem:\underset {\alpha_{i}\geq0}{\operatorname {max}} ~ \underset {w,b}{\operatorname {min}} L(w,b,\alpha) = d^{*} w,bminΘ(w)=w,bmin αi≥0maxL(w,b,α)=p∗ dual problem:αi≥0max w,bminL(w,b,α)=d∗
其中 d ∗ ≤ p ∗ d^{*} \leq p^{*} d∗≤p∗,所以我们现在求解 L L L关于 w , b w,b w,b的最小值,再求关于 α \alpha α的最大值,转化为对偶问题的原因是方便求解
▽ w L ( w , b , α ) = w − ∑ i = 1 N α i y i x i = 0 ▽ b L ( w , b , α ) = − ∑ i = 1 N α i y i = 0 \bigtriangledown_{w}L(w, b, \alpha) = w - \sum_{i=1}^{N}\alpha_{i}y_{i}x_{i}=0 \\ \bigtriangledown_{b}L(w, b, \alpha) = - \sum_{i=1}^{N}\alpha_{i}y_{i}=0 ▽wL(w,b,α)=w−i=1∑Nαiyixi=0▽bL(w,b,α)=−i=1∑Nαiyi=0
得到
w = ∑ i = 1 N α i y i x i ∑ i = 1 N α i y i = 0 w = \sum_{i=1}^{N}\alpha_{i}y_{i}x_{i} \\ \sum_{i=1}^{N}\alpha_{i}y_{i}=0 w=i=1∑Nαiyixii=1∑Nαiyi=0
带入 L ( w , b , α ) = 1 2 ∣ ∣ w ∣ ∣ 2 − ∑ i = 1 n α i ( y i ( w T x i + b ) − 1 ) i = 1 , . . . , n L(w, b, \alpha) = \frac{1}{2}||w||^{2} - \sum_{i=1}^{n}\alpha_{i}(y_{i}(w^{T}x_{i}+b) - 1)~~~i=1,...,n L(w,b,α)=21∣∣w∣∣2−∑i=1nαi(yi(wTxi+b)−1) i=1,...,n得到
min w , b L ( w , b , α ) = L ( α ) = − 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 n α i \underset {w,b}{\operatorname {min}} L(w,b,\alpha) = L(\alpha) = -\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}\cdot x_{j})+\sum_{i=1}^{n}\alpha_{i} w,bminL(w,b,α)=L(α)=−21i=1∑nj=1∑nαiαjyiyj(xi⋅xj)+i=1∑nαi
max α L ( α ) = − 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 n α i s t . ∑ i = 1 N α i y i = 0 α i ≥ 0 i = 1 , 2 , . . . , N \underset {\alpha}{\operatorname {max}} L(\alpha) = -\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}\cdot x_{j})+\sum_{i=1}^{n}\alpha_{i} \\ st. \sum_{i=1}^{N}\alpha_{i}y_{i}=0 ~~~ \alpha_{i}\geq 0 ~~~ i=1,2,...,N αmaxL(α)=−21i=1∑nj=1∑nαiαjyiyj(xi⋅xj)+i=1∑nαist.i=1∑Nαiyi=0 αi≥0 i=1,2,...,N
一般来说我们求解的是目标函数的最小值,所以将上述函数加上负号,修改为:
min α L ( α ) = 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 n α i s t . ∑ i = 1 N α i y i = 0 α i ≥ 0 i = 1 , 2 , . . . , N \underset {\alpha}{\operatorname {min}} L(\alpha) = \frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}\cdot x_{j}) - \sum_{i=1}^{n}\alpha_{i} \\ st. \sum_{i=1}^{N}\alpha_{i}y_{i}=0 ~~~ \alpha_{i}\geq 0 ~~~ i=1,2,...,N αminL(α)=21i=1∑nj=1∑nαiαjyiyj(xi⋅xj)−i=1∑nαist.i=1∑Nαiyi=0 αi≥0 i=1,2,...,N
在前两部分中我们已经将最初的优化问题 min w , b 1 2 ∣ ∣ w ∣ ∣ 2 \underset {w,b}{\operatorname {min}}\frac{1}{2}||w||^{2} w,bmin21∣∣w∣∣2转化为 min α L ( α ) = 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 n α i \underset {\alpha}{\operatorname {min}} L(\alpha) = \frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}\cdot x_{j}) - \sum_{i=1}^{n}\alpha_{i} αminL(α)=21∑i=1n∑j=1nαiαjyiyj(xi⋅xj)−∑i=1nαi,接下来我们用KKT条件来对 α \alpha α求解
{ ▽ w L ( w ∗ , b ∗ , α ∗ ) = w ∗ − ∑ i = 1 N α i ∗ y i x i = 0 ▽ b L ( w ∗ , b ∗ , α ∗ ) = − ∑ i = 1 N α i ∗ y i = 0 α i ( y i ( w ⋅ x i + b ) − 1 ) = 0 y i ( w ⋅ x i + b ) − 1 ≥ 0 α i ≥ 0 i = 1 , 2 , . . . , N \left\{\begin{array}{l} \bigtriangledown_{w}L(w^{*}, b^{*}, \alpha^{*}) = w^{*} - \sum_{i=1}^{N}\alpha_{i}^{*}y_{i}x_{i}=0 \\ \bigtriangledown_{b}L(w^{*}, b^{*}, \alpha^{*}) = - \sum_{i=1}^{N}\alpha_{i}^{*}y_{i}=0 \\ \alpha_{i}(y_{i}(w\cdot x_{i}+b) - 1) = 0 \\ y_{i}(w\cdot x_{i}+b) - 1\geq0 \\ \alpha_{i} \geq 0 ~~~ i=1,2,...,N \end{array}\right. ⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧▽wL(w∗,b∗,α∗)=w∗−∑i=1Nαi∗yixi=0▽bL(w∗,b∗,α∗)=−∑i=1Nαi∗yi=0αi(yi(w⋅xi+b)−1)=0yi(w⋅xi+b)−1≥0αi≥0 i=1,2,...,N
w ∗ w^{*} w∗可以直接算出,将 w ∗ w^{*} w∗带入 y j ( w ∗ ⋅ x j + b ∗ ) − 1 ) = 0 y_{j}(w^{*}\cdot x_{j}+b^{*}) - 1) = 0 yj(w∗⋅xj+b∗)−1)=0可算出 b ∗ b^{*} b∗
此时我们已经得到了 w ∗ w^{*} w∗和 b ∗ b^{*} b∗,又因为我们的超平面方程为 w T x + b = 0 w^{T}x + b = 0 wTx+b=0,所以得到
∑ i = 1 N α i ∗ y i x i ⋅ x + b ∗ = 0 d e c i s i o n f u n c t i o n : f ( x ) = s i g n ( ∑ i = 1 N α i ∗ y i ( x i ⋅ x ) + b ∗ ) \sum_{i=1}^{N}\alpha_{i}^{*}y_{i}x_{i}\cdot x + b^{*} = 0 \\ decision~function:f(x) = sign(\sum_{i=1}^{N}\alpha_{i}^{*}y_{i}(x_{i}\cdot x) + b^{*}) i=1∑Nαi∗yixi⋅x+b∗=0decision function:f(x)=sign(i=1∑Nαi∗yi(xi⋅x)+b∗)
从上式可以看出,分类决策函数只依赖于输入 x x x以及训练样本输入的内积,并且 d e c i s i o n f u n c t i o n decision ~ function decision function就被称为线性可分支持向量机的对偶形式