SVM松弛变量图解

当样本集处于非线性可分时,需要引入松弛变量\xi,放松线性约束。

 

松弛变量是什么?

SVM松弛变量图解_第1张图片

松弛变量\xi _{i} :指出第i个观测的位置、相对于间隔的位置、以及相对于超平面的位置。

\xi _{i}=0,表示第i个样本落在间隔正确的一面;\xi _{i}>0,说明落在错误的一面。

例如,对于图中右下角那个红圈,\xi _{5}>0

 

引入松弛变量是如何处理线性不可分的?

 

先看优化目标(未引入松弛变量):

\underset{w,b}{min} \frac{1}{2} \parallel w\parallel ^2

s.t  y_{i} (w^Tx_{i}+b)\ge 1, i=1,2,...m

 

引入松弛变量后的优化目标:

\underset{w,b}{min} \frac{1}{2} \parallel w\parallel ^2 +C\left \{ \sum_{i}^{m} \xi ^{(i)} \right \}  

s.t  y_{i} (w^Tx_{i}+b)\ge 1-\xi ^{(i)}, i=1,2,...m

 

SVM松弛变量图解_第2张图片

可以把松弛变量理解为:异常点离群距离的大小。例如,如果把右图红圈5当做异常值,那么离群值就大于0,也就是说,\xi _{5}>0,那么\sum_{i}^{m} \xi ^{(i)}>0

 

变量C用来控制对错误分类的惩罚,C越大,对错误的惩罚越大。换句话说,C越大,对错误分类的要求就越严。(如图所示)

如果考虑极端情况,C取无穷大,那么C\left \{ \sum_{i}^{m} \xi ^{(i)} \right \} \rightarrow \infty,问题就无解了。

如果C较小,那么C\left \{ \sum_{i}^{m} \xi ^{(i)} \right \}中,\sum_{i}^{m} \xi ^{(i)}增加时(有更多异常点的加入),对C\left \{ \sum_{i}^{m} \xi ^{(i)} \right \}的影响就比较小了,那么就能忽略更多的“异常点”,降低模型的方差。

 

以上就是我对软间隔分类中松弛变量的理解,由于昨天刚学习SVM,如果哪里理解有误,还望指正!

 

 

你可能感兴趣的:(机器学习/深度学习,机器学习,支持向量机)