SVM的基本推导

1、SVM的作用

对于给定的训练样本集D={(x1,y1), (x2,y2),… (xn,yn)},yi属于{-1,+1},希望能找出一个超平面,把不同类别的数据集分开,对于线性可分的数据集来说,这样的超平面有无穷多个,而最优的超平面即是分隔间距最大的中间那个超平面

SVM的基本推导_第1张图片

2、硬间隔最大化

SVM的基本推导_第2张图片

SVM的基本推导_第3张图片

对于以上的KKT条件可以看出,对于任意的训练样本总有ai=0或者yif(xi) - 1=0即yif(xi) = 1
1)当ai=0时,代入最终的模型可得:f(x)=b,即所有的样本对模型没有贡献
2)当ai>=0,则必有yif(xi) = 1,注意这个表达式,代表的是所对应的样本刚好位于最大间隔边界上,是一个支持向量,这就引出一个SVM的重要性质:训练完成后,大部分的训练样本都不需要保留,最终的模型仅与支持向量有关。
3、软间隔最大化

前面我们是假定所有的训练样本在样本空间或特征空间中是严格线性可分的,即存在一个超平面能把不同类的样本完全分开,然鹅现实任务中很难确定这样的超平面(不管是线性超平面还是经过核变换到高维空间的超平面),所以引入松弛变量,允许一些样本出错,但我们希望出错的样本越少越好,所以松弛变量也有限制(注:公式中的松弛变量不是单单一个数,每个样本都有对应的松弛变量)。引入松弛变量的间隔问题成为软间隔
SVM的基本推导_第4张图片

SVM的基本推导_第5张图片

SVM的基本推导_第6张图片

4、核函数

前面我们都是假设样本是线性可分的,虽然软间隔不完全可分,但大部分还是可分的。而现实任务中很可能遇到这样的情况,即不存在一个能够正确划分两个类别样本的超平面,对这样的问题,可以将样本从原始空间映射到一个更高维的特征空间中,使得样本在这个特征空间中线性可分。

核函数这块这里不再多讲,主要讲解了基本的SVM推导过程,本博文其实主要参照https://blog.csdn.net/Dominic_S/article/details/83002153自己进行推导了一遍,若有不当之处请指教,谢谢!

你可能感兴趣的:(图像处理基础算法,常用算法,机器学习)