周志华《机器学习》——支持向量机

周志华《机器学习》——支持向量机_第1张图片

重写一下图中的公式:

支持向量机的超平面应该满足:

y_{i}(\omega ^{T}x_{i}+b)\geq 1(其中i是第i个样例,若样例为正类,yi标记为1,即等价于公式括号里的部分大于等于1;若样例为负类,yi标记为-1,即等价于公式括号里的部分小于等于1)

min \tfrac{1}{2}\parallel \omega \parallel ^2(即训练样本距离超平面的距离应该越远越好(两类分的越开越好))

在寻找上述超平面的过程中可能会遇到各种问题,针对每种问题,我们又有各种解决方法:

 

1、样本空间找不到一个很好的超平面进行划分——核函数

上述最简单的SVM过程是假设在样本空间存在一个超平面可将样本划分开,但是也有可能在样本空间里不存在这样的超平面。在这种情况下,需要将样本从样本空间映射到更高为的特征空间,然后在更高维度的空间里寻找超平面。如果将x映射到高维平面的函数是\phi (x),也就是SVM是在寻找满足

y_{i}(\omega ^{T}\phi (x_{i})+b)\geq 1 (括号里是样本映射到超空间后又分类的结果,和yi相乘大于1意味着分类正确)

min \tfrac{1}{2}\parallel \omega \parallel ^2  (这是超平面最大间隔约束)

的超平面

在求解上述公式的解的过程中需要计算\phi (x_{i})^T\phi (x_{j}),也就是样本xi和样本xj映射到特征空间之后的内积。

这个内积很不好计算,所以我们在原始的样本空间中寻找一个函数k(x_{i},x_{j}),使k(x_{i},x_{j})=\phi (x_{i})^T\phi (x_{j}),这样计算就更简单了,这个k(x_{i},x_{j})叫做核函数

如果我们知道\phi (x)的具体形式,则容易找到对应的k(x_{i},x_{j}),但是通常我们不知道\phi (x)是什么,但是根据一些证明和经验,我们有了一些常用的好用的核函数,包括线性核、多项式核、高斯核、拉普拉斯核、sigmoid核等。

不同的核函数意味着不同的\phi (x),也就是将样本映射到不同的高维特征空间,因此核函数的选择很重要,只有映射到合适的空间,才能找到分类效果更好的超平面

2、找不到超平面能够把两类样本完全分割开——软间隔与正则化

软间隔允许超平面在有些样本上分类错误,也就是满足

y_{i}(\omega ^{T}\phi (x_{i})+b)\geq 1-\xi_{i}

min \tfrac{1}{2}\parallel \omega \parallel ^2+C\sum \xi _{i}

\xi _{i}\geq 0

其中\xi _{i}是松弛变量,是一个关于y_{i}(\omega ^{T}\phi (x_{i})+b)-1的函数,可被表示为f(x),其中x等于y_{i}(\omega ^{T}\phi (x_{i})+b)-1

当样本被超平面正确划分时,自变量y_{i}(\omega ^{T}\phi (x_{i})+b)\geq 1x\geq 0,f(x)很小;当样本没有被超平面正确划分时,x<0f(x)比较大。通过引入松弛变量,允许了部分样本分类错误,同时利用最小化

min \tfrac{1}{2}\parallel \omega \parallel ^2+C\sum \xi _{i}

使得超平面和样本间的间隔大(\tfrac{1}{2}\parallel \omega \parallel ^2)且训练集上的被分错的误差小(C\sum \xi _{i}

f(x)的具体函数常见的有hinge损失、指数损失和对率损失函数等。

3、如何利用SVM的思路进行回归分析——支持向量回归SVR

你可能感兴趣的:(机器学习)