本文是关于周志华老师编写的机器学习书籍『西瓜书』的第六章支持向量机.
主要的内容有: 支持向量机的模型理解、支持向量、硬间隔与软间隔、在不等式约束下使用拉格朗日乘子法转化为对偶问题、KKT条件、支持向量回归等.
面对二分类问题, 最基本的想法是基于训练集, 在样本空间中找到一个合适的划分超平面, 从而将样本划分为两类. 但是划分超平面有很多, 选择最合适的超平面就是我们接下来要解决的问题了.
所谓『最合适』就是指: 不仅在训练集中表现良好, 更要在新的测试集中表现良好, 即泛化性能最好. 那么最直观的就行找到「正中间」的那个超平面.
首先使用线性方程来描述一下超平面:
w T x + b = 0 (1) \boldsymbol{w}^T\boldsymbol{x} + b = 0 \tag{1} wTx+b=0(1)
其中 w \boldsymbol{w} w为法向量, 决定平面的方向, d d d是位移项, 决定偏移原点的距离.
若样本点在超平面上侧, 即 w T x + b > 0 \boldsymbol{w}^T\boldsymbol{x} + b > 0 wTx+b>0, 那么 x i x_i xi为正样本, 记为 y i = 1 y_i=1 yi=1, 反之为负样本, 记为 y i = − 1 y_i=-1 yi=−1.
若超平面能够正确分类, 那么使用一个sign函数
将会得到模型:
y = s i g n ( w T x i + b ) = { + 1 , w T x i + b ≥ + 1 ; − 1 , w T x i + b ≤ − 1 ; (2) y = sign(\boldsymbol{w}^T\boldsymbol{x}_i + b) = \begin{cases} +1, \quad \boldsymbol{w}^T\boldsymbol{x}_i + b \geq +1; \\ -1, \quad \boldsymbol{w}^T\boldsymbol{x}_i + b \leq -1; \tag{2} \end{cases} y=sign(wTxi+b)={+1,wTxi+b≥+1;−1,wTxi+b≤−1;(2)
后面的 ± 1 \pm1 ±1是 ( w , b ) (\boldsymbol{w}, b) (w,b)变换过的, 因为任意 w T x i + b ≥ c \boldsymbol{w}^T\boldsymbol{x}_i + b \geq c wTxi+b≥c可以变化为 1 c w T x i + b c ≥ 1 \frac{1}{c}\boldsymbol{w}^T\boldsymbol{x}_i + \frac{b}{c} \geq 1 c1wTxi+cb≥1. 此处的变换仅仅是「常规操作」, 也可以取其他值, 主要目的是使得后续的最优化问题有约束可解.
其中 c c c即为下面所说的「最近距离」.
注意到公式 ( 2 ) (2) (2)中的等号, 当且仅当某些样本点距离超平面最近时取得, 称为『支持向量』(support vector)!. 那么, 两侧异类样本点距离超平面的最近距离相同时, 是不是就是最合适的划分呀!
接下来计算样本 x \boldsymbol{x} x距离超平面的距离计算为:
γ = y i ( w T x + b ) ∥ w ∥ (3) \gamma = \frac{y_i(\boldsymbol{w}^T\boldsymbol{x} + b)}{\|\boldsymbol{w}\|} \tag{3} γ=∥w∥yi(wTx+b)(3)
那么左右两侧最近的「异类点」到达超平面的距离之和为:
γ = 2 ∥ w ∥ (4) \gamma = \frac{2}{\|\boldsymbol{w}\|} \tag{4} γ=∥w∥2(4)
这距离之和就称为『间隔』(margin) !
那么我们的问题就是去寻找最大的间隔 2 ∥ w ∥ \frac{2}{\|\boldsymbol{w}\|} ∥w∥2, 使得泛化误差最小, 也等价于寻找最小的 ∥ w ∥ 2 \|\boldsymbol{w}\|^2 ∥w∥2, 问题就转化为:
min ( w , b ) 1 2 ∥ w ∥ 2 s . t 1 − y i ( w T x + b ) ≤ 0 , i = 1 , 2 , … , m . (5) \begin{aligned} \min_{(\boldsymbol{w}, b)} &\quad{\frac{1}{2}\|\boldsymbol{w}\|^2} \\ s.t &\quad 1-y_i(\boldsymbol{w}^T\boldsymbol{x} + b) \leq 0, \quad i = 1,2,\dots, m. \tag{5} \end{aligned} (w,b)mins.t21∥w∥21−yi(wTx+b)≤0,i=1,2,…,m.(5)
凸优化的问题一般将优化函数转化为最小值, 约束条件转化为小于等于的形式.
以上的问题我们可以使用拉格朗日乘子法得到『对偶问题』的拉格朗日函数:
L ( w , b , α ) = 1 2 ∥ w ∥ 2 + ∑ i = 1 m α i ( 1 − y i ( w T x i + b ) ) (6) L(\boldsymbol{w}, b, \boldsymbol{\alpha}) = \frac{1}{2}\|\boldsymbol{w}\|^2 + \sum^m_{i=1}\alpha_i{(1-y_i(\boldsymbol{w}^T\boldsymbol{x}_i + b))} \tag{6} L(w,b,α)=21∥w∥2+i=1∑mαi(1−yi(wTxi+b))(6)
并对上式对 w \boldsymbol{w} w和 b b b求偏导为 0 0 0可得:
w = ∑ i = 1 m α i y i x i 0 = ∑ i = 1 m α i y i (7) \begin{aligned} \boldsymbol{w} &= \sum^m_{i=1}{\alpha_i y_i\boldsymbol{x}_i} \\ 0 &= \sum^m_{i=1}{\alpha_i y_i} \end{aligned} \tag{7} w0=i=1∑mαiyixi=i=1∑mαiyi(7)
将求得的结果带入拉格朗日函数中, 就可以得到对偶问题:
max α ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j x i T x j s . t . ∑ i = 1 m α i y i = 0 (8) \begin{aligned} \max_{\boldsymbol{\alpha}} &\quad {\sum^m_{i=1}{\alpha_i}-\frac{1}{2}\sum^m_{i=1}{\sum^m_{j=1}{\alpha_i \alpha_j y_i y_j\boldsymbol{x}_i^T\boldsymbol{x}_j}}} \\ s.t. &\quad\sum^m_{i=1}{\alpha_i y_i} = 0 \end{aligned} \tag{8} αmaxs.t.i=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxiTxji=1∑mαiyi=0(8)
那么模型就转化为求解 α \boldsymbol{\alpha} α, 而 α \boldsymbol{\alpha} α是拉格朗日乘子, 与不等式约束条件个数有关, 即与样本个数成正比. 而我们原本的模型是求出 w \boldsymbol{w} w, 其实也是可以直接优化的, 但是 w \boldsymbol{w} w表示模型的特征, 所以原模型与样本的特征数成正比.
所以当我们遇到样本数较少, 而特征数较多的情况下可以选择使用对偶问题进行求解. 所以支持向量机在小样本中使用效果相对较好.
在上述的过程中, 我们使用了拉格朗日乘子法, 但是在这里我介绍过, 拉格朗日乘子法是针对等式约束的, 如果是不等式约束, 则需要满足KKT条件
, 这里是:
{ α i ≥ 0 ; 1 − y i ( w T x i + b ) ≤ 0 ; α i ( 1 − y i ( w T x i + b ) ) = 0. \begin{cases} \alpha_i \geq 0; \\ 1-y_i(\boldsymbol{w}^T\boldsymbol{x}_i + b) \leq 0; \\ \alpha_i(1-y_i(\boldsymbol{w}^T\boldsymbol{x}_i + b)) = 0. \end{cases} ⎩⎪⎨⎪⎧αi≥0;1−yi(wTxi+b)≤0;αi(1−yi(wTxi+b))=0.
⚠️在这里可以发现很重要的结论:
也就是说, 我们的模型仅仅与支持向量有关, 这也是为什么叫做支持向量机的原因.
在上述的内容中, 我们要求样本严格可分, 来得到一个『间隔』使得样本分开, 这个间隔称为"硬间隔"(hard margin). 但是在实际的情况中, 有很多样本并不是严格线性可分, 可能存在部分(少量)的『出错点』.
所以我们需要寻找一个允许存在误差的间隔, 称之为"软间隔"(soft margin). 当然, 存在的误差要尽可能的少, 所以我们在优化目标上增加『损失函数』, 使得不满足约束的, 赋予一定损失, 满足约束的没有损失:
min ( w , b ) 1 2 ∥ w ∥ 2 + C ∑ i = 1 m ℓ 0 / 1 ( y i ( w T x i + b ) − 1 ) (9) \min_{(\boldsymbol{w}, b)} {\frac{1}{2}\|\boldsymbol{w}\|^2} + C\sum^m_{i=1}\ell_{0/1}(y_i(\boldsymbol{w}^T\boldsymbol{x}_i + b)-1) \tag{9} (w,b)min21∥w∥2+Ci=1∑mℓ0/1(yi(wTxi+b)−1)(9)
其中 C C C是一个常数, 若定义 C C C很大, 则对损失要求严格, 反之则越宽松. ℓ 0 / 1 \ell_{0/1} ℓ0/1则代表『0/1损失函数』, 但是非凸, 非连续, 数学性质不好, 所以常使用『hinge(合页)损失』.
那么损失函数变成
min ( w , b ) 1 2 ∥ w ∥ 2 + C ∑ i = 1 m max ( 0 , 1 − y i ( w T x i + b ) ) (10) \min_{(\boldsymbol{w}, b)} {\frac{1}{2}\|\boldsymbol{w}\|^2} + C\sum^m_{i=1}{\max{(0, 1-y_i(\boldsymbol{w}^T\boldsymbol{x}_i + b))}} \tag{10} (w,b)min21∥w∥2+Ci=1∑mmax(0,1−yi(wTxi+b))(10)
还有常见的指数损失和对率损失等.
引入松弛变量(slack variable) ξ i \xi_i ξi, 那么可以重写为
min ( w , b ) 1 2 ∥ w ∥ 2 + C ∑ i = 1 m ξ i s . t . 1 − y i ( w T x + b ) ≤ ξ i ξ i ≥ 0 , i = 1 , 2 , … , m . (11) \begin{aligned} \min_{(\boldsymbol{w}, b)} &\quad{\frac{1}{2}\|\boldsymbol{w}\|^2} + C\sum^m_{i=1}{\xi_i} \\ s.t. &\quad 1-y_i(\boldsymbol{w}^T\boldsymbol{x} + b) \leq \xi_i \\ &\quad \xi_i \geq 0, i = 1,2,\dots, m. \tag{11} \end{aligned} (w,b)mins.t.21∥w∥2+Ci=1∑mξi1−yi(wTx+b)≤ξiξi≥0,i=1,2,…,m.(11)
这就是常见的软间隔支持向量机.
故意化简为上述形式, 那么就可以和普通支持向量机一样使用拉格朗日函数化为对偶问题再进行求解.
之前提到过的线性回归模型, 是学习得到一条线 f ( x ) f(x) f(x), 而将支持向量运用于回归的问题上, 是学习得到一条「间隔带」 f ( x ) ± ϵ f(x)\pm\epsilon f(x)±ϵ.
为了类似支持向量的分类模型, 写出如下形式:
min ( w , b ) 1 2 ∥ w ∥ 2 + C ∑ i = 1 m ℓ ϵ ( f ( x i ) − y i ) (12) \min_{(\boldsymbol{w}, b)} {\frac{1}{2}\|\boldsymbol{w}\|^2} + C\sum^m_{i=1}\ell_{\epsilon}(f(\boldsymbol{x}_i)-y_i) \tag{12} (w,b)min21∥w∥2+Ci=1∑mℓϵ(f(xi)−yi)(12)
其中 C C C为正则化尝试, ℓ ϵ \ell_{\epsilon} ℓϵ是 ϵ \epsilon ϵ-不敏感损失函数
ℓ ϵ ( z ) = { 0 , i f ∣ z ∣ ≤ ϵ ; ∣ z ∣ − ϵ , o t h e r w i s e . \ell_{\epsilon}(z) = \begin{cases} 0, &if |z| \leq \epsilon; \\ |z| - \epsilon, & otherwise. \end{cases} ℓϵ(z)={0,∣z∣−ϵ,if∣z∣≤ϵ;otherwise.
模仿软间隔支持向量机的形式, 再引入松弛变量 ξ i \xi_i ξi和 ξ ^ i \hat{\xi}_i ξ^i, 两个松弛变量的原因是正负两侧的松弛程度可以不一样, 从而重写为:
min ( w , b , ξ i , ξ ^ i ) 1 2 ∥ w ∥ 2 + C ∑ i = 1 m ( ξ i + ξ ^ i ) s . t . f ( x i ) − y i ≤ ξ i + ϵ y i − f ( x i ) ≤ ξ ^ i + ϵ ξ i ≥ 0 , ξ i ^ ≥ 0 , i = 1 , 2 , … , m . (11) \begin{aligned} \min_{(\boldsymbol{w}, b, \xi_i, \hat{\xi}_i)} &\quad{\frac{1}{2}\|\boldsymbol{w}\|^2} + C\sum^m_{i=1}{(\xi_i + \hat{\xi}_i)} \\ s.t. &\quad f(\boldsymbol{x}_i) - y_i \leq \xi_i + \epsilon \\ &\quad y_i - f(\boldsymbol{x}_i) \leq \hat{\xi}_i + \epsilon \\ &\quad \xi_i \geq 0, \hat{\xi_i} \geq 0, i = 1,2,\dots, m. \tag{11} \end{aligned} (w,b,ξi,ξ^i)mins.t.21∥w∥2+Ci=1∑m(ξi+ξ^i)f(xi)−yi≤ξi+ϵyi−f(xi)≤ξ^i+ϵξi≥0,ξi^≥0,i=1,2,…,m.(11)
又是类似的优化形式, 同样使用拉格朗日函数转化后求解.
首先这一章对我来说是比较困难的, 主要是有些地方懵懵懂懂, 需要花一定的时间来消化.