模式识别学习笔记(13)——svm

SVM

它有什么优点?有什么缺点?

为什么要有SVM?在什么情况下我需要用svm?
考虑一个最简单的线性分类器,在很多情况下,用线性是分不开的,如果我们有很多的feature,将其映射到高维空间,可以使其线性可分(实际上是核方法的思想)。在feature很多的情况下,如果我们还用传统的方法,比如感知器,去训练的话,因为k维空间的VC维是k+1,当映射到高维空间,k增加的时候,这个VC维也在跟着增加,而我们知道VC维越高,泛化性能越差,所以用这种传统的方法泛化能力差,不适用。我们需要找到一种新的方法使得VC维低。而这种新的方法是什么呢?large margin。why?很多数学证明表示large margin有很低的VC维。所以我们要找一个使得margin最大的分类面。

VC维
--k维空间的VC维是k+1
--VC维越高,分类器越flexible,但泛化能力越差;VC维越低,泛化能力越好
--VC维只是理论上的一个概念,很多分类器的VC维实际中是很难准确计算的
--定性地,我们认为一个分类器越flexible,VC维越高
margin
到任意数据点的最小距离,举例图如下(最简单的两类线性分类器),红色的宽度就表示margin。
模式识别学习笔记(13)——svm_第1张图片 模式识别学习笔记(13)——svm_第2张图片

这种linear SVM简称为LSVM

svm是什么?
svm的目标就是找使得margin最大(红色宽度最大)的那个分类面.那么为什么叫svm呢?这就得说到支撑向量(support vector)了。支撑向量指的是那些与margin几乎贴近的数据点。这个分界面仅取决于这几个支撑向量,而与其他数据点无关。
1、svm所用的large margin,使得很小的错误分类
2、对于留一法交叉验证来说,因为svm少一个样本并没有太大的影响,所以svm比较稳定。
模式识别学习笔记(13)——svm_第3张图片

那么如何衡量margin呢?
第一种方法:margin=点到直线的距离
w——法向量
wx——x到w的投影
模式识别学习笔记(13)——svm_第4张图片
模式识别学习笔记(13)——svm_第5张图片
min-max problem
模式识别学习笔记(13)——svm_第6张图片
除了margin最大,还需要满足约束:所有样本分类正确
模式识别学习笔记(13)——svm_第7张图片
将最小最大化min-max problem——game problem 博弈论
计算困难,将其转化为简单的形式
模式识别学习笔记(13)——svm_第8张图片
数学证明:
模式识别学习笔记(13)——svm_第9张图片
分子变为1,分母将k放到wi中

第二种方法:margin=两条平行线之间的距离

模式识别学习笔记(13)——svm_第10张图片

模式识别学习笔记(13)——svm_第11张图片
模式识别学习笔记(13)——svm_第12张图片
归根结底,就是想要w趋于0

暂停。。。





你可能感兴趣的:(学习笔记)