支持向量机

支持向量机(Support Vector Machines,SVM)

SVM有很多实现,其中最流行的一种是序列最小优化(Sequential Minimal Optimization,SMO)

优点:泛化错误率低,计算开销不大,结果易解释

缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。

使用数据类型:数值型和标称型数据

支持向量机_第1张图片
线性可分(linearly separable)数据

上述将数据集分隔开来的直线称为分隔超平面(separating hyperplane)。

二维平面就是一条直线分割,如果是三维,此时分隔数据就是一个平面。如果1024维的话,就需要一个1024维的某某对象来对数据进行分隔,改对象被称之为超平面,也就是分类的决策边界。

如果数据点距离决策边界越远,那么其最后的预测结果也就越可信。

支持向量就是离分隔超平面最近的那些点

寻找最大间隔

支持向量机_第2张图片
A到分隔平面的距离就是该点到分隔面的法线长度


支持向量机_第3张图片

核函数


支持向量机_第4张图片
线性不可分的数据集
支持向量机_第5张图片
这个数据在二维平面中很难用一条直线分隔,不过很明显,这里存在分隔方形点和圆形点的模式

将数据从一个特征空间转换到另一个特征空间。在新空间下,我们可以很容易利用已有的工具对数据进行处理。数学家们喜欢将这个过程称之为从一个特征空间到另一个特征空间的映射。在通常情况下,这种映射会将低维特征空间映射到高维空间。这种从某个特征空间到另一个特征空间的映射是通过核函数来实现的。可以把核函数想象成一个包装器或者是接口,它能把数据从某个很难处理的形式转换成为另一个较容易处理的形式。

径向基核函数是SVM中常用的一个核函数。径向基函数是一个采用向量作为自变量的函数,能够基于向量距离运算输出一个标量。这个距离可以是从<0,0>向量或者其他向量开始计算的距离。

径向基函数的高斯版本公式

你可能感兴趣的:(支持向量机)