支持向量机SVM总结

1 什么是SVM?

支持向量机SVM总结_第1张图片
SVM是Support Vector Machine的简称,它的中文名为支持向量机,属于一种有监督的机器学习算法,可用于离散因变量的分类和连续因变量的预测。通常情况下,该算法相对于其他单一的分类算法(如Logistic回归、决策树、朴素贝叶斯、KNN等)会有更好的预测准确率,主要是因为它可以将低维线性不可分的空间转换为高维的线性可分空间。
该算法的思想就是利用某些支持向量所构成的“超平面”,将不同类别的样本点进行划分。不管样本点是线性可分的、近似线性可分的还是非线性可分的,都可以利用“超平面”将样本点以较高的准确度切割开来。需要注意的是,如果样本点为非线性可分,就要借助于核函数技术,实现样本在核空间下完成线性可分的操作。关键是“超平面”该如何构造。

2 优缺点

运用SVM模型对因变量进行分类或预测时具有几个显著的优点:例如,由于SVM模型最终所形成的分类器仅依赖于一些支持向量,这就导致模型具有很好的鲁棒性(增加或删除非支持向量的样本点,并不会改变分类器的效果)以及避免维度灾难”的发生(模型并不会随数据维度的提升而提高计算的复杂度);模型具有很好的泛化能力,一定程度上可以避免模型的过拟合;也可以避免模型在运算过程中出现的局部最优。
该算法的缺点也是明显的,例如模型不适合大样本的分类或预测,因为它会消耗大量的计算资源和时间;模型对缺失样本非常
敏感
,这就需要建模前清洗好每一个观测样本;虽然可以通过核函数解决非线性可分问题,但是模型对核函数的选择也同样很敏感;SVM为黑盒模型(相比于回归或决策树等算法),对计算得到的结果无法解释。

3 推导

支持向量机SVM总结_第2张图片
在样本空间中,划分超平面可通过如下线性方程来描述:
在这里插入图片描述
样本空间中任意点 x 到超平面(w, b)距离可写为:
在这里插入图片描述
支持向量机SVM总结_第3张图片
支持向量机SVM总结_第4张图片
支持向量机SVM总结_第5张图片

4 对偶问题

构造拉格朗日函数
支持向量机SVM总结_第6张图片
支持向量机SVM总结_第7张图片
支持向量机SVM总结_第8张图片

5 例子

支持向量机SVM总结_第9张图片支持向量机SVM总结_第10张图片

6 核函数

现实任务中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面。
支持向量机SVM总结_第11张图片
支持向量机SVM总结_第12张图片
支持向量机SVM总结_第13张图片
支持向量机SVM总结_第14张图片

你可能感兴趣的:(数据挖掘笔记)