SVM-1-问题描述

参考http://www.cnblogs.com/jerrylead

SVM(支持向量机)其本质就是求解一个平面 g(x)=wTx+b (二维是直线,三维是平面,再高点维度就叫超平面)将样本划分为两类(正负样本)。这里用1,-1来表示正负样本。
注: g(x) 不是分类面的表达式,分类面的表达式是 g(x)=0 ,即 wTx+b=0

对于 g(x)=wTx+b 当有一个样本 xi 需要判别的时候,我们就看 g(xi) 的值。若 g(xi)>0 ,就判别为正样本;若 g(xi)<0 ,则判别为负样本。

我们用“分类间隔”来评价一个分类平面的好坏,首先引入函数间隔:

δ^i=yi(wTxi+b)

注意:
1、当yi是正样本时,即 yi=1 时, wTxi+b>0δi>0
2、当yi是负样本是,即 yi=1 时, wTxi+b<0δi>0
故δ恒大于零。
3、该函数距离是单个样本到超平面的距离

进而全局函数距离为: mini=1,...,m δ^i

我们的优化目标是为了使函数距离尽可能大,即:

maxδ^,w,b δ^

st. yi(wTxi+b)δ^

||w||=1

注:
1、对于函数 wTx+b=0 ,我们可以在等式两边同时乘以任意的数,等式值不变(即缩放),因此对于任意的 (w,b) ,都可以有无数多个超平面与之对应,显然这不符合我们的要求,因此我们需要一个约束条件。基于缩放的性质,我们可以令 ||w||=1
2、 δ^||w|| 就是解析几何中点xi到直线 g(x)=0 的距离公式嘛!(推广一下,是到超平面g(x)=0的距离),这里使用约束 ||w||=1 使得几何距离与函数距离等价。
3、虽然有约束 ||w||=1 ,但是它却不是一个好的约束,因为此时所要优化的函数是一个非凸函数,我们无法使用梯度下降等方法对其求解。
4、上面说了一堆废话,只是为了保证读者能够看懂下面,转换到凸函数处理的步骤

转换到凸函数

由于在约束 ||w||=1 下,上面的函数难以求解;再考虑到函数距离与几何距离的关系 δ^||w|| ,我们改写上面的式子:

maxδ^,w,b δ^||w||

st. yi(wTxi+b)δ^

这样我们的优化目标就变为 δ^||w|| ,即几何距离,这样我们就 省去了优化函数距离时所需要的约束 ||w||=1
但是此时它仍是一个非凸函数下面将它变为凸函数:
基于缩放原理我们可以令几何距离 δ=1 (不要忘记,几何距离或函数距离是指样本中离超平面最近的样本到超平面的距离),即令 mini yi(wTxi+b) =1(隐含的缩放条件,对于任意的 δ 都可以通过缩放使其等于1),基于 δ=1 可得下式:

max 1||w||

st.yi(wTxi+b)1

注:再次强调此时 ||w||1 ,该约束已经不再需要,因为之前已经优化掉了
为了使用中方便,我们常写成下面的形式:
min 12||w||2

st.yi(wTxi+b)1

之所以如此关心几何间隔这个东西,是因为几何间隔与样本的误分次数间存在关系:

(2Rδ)2

其中: δ 是几何距离,即样本与超平面的最小距离, R=max yi(wTxi+b) ,即样本与超平面的最大距离

你可能感兴趣的:(SVM)