支持向量机及相关问题研究

支持向量机(Support Vector Machine,SVM) 是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。给定一组训练样本,每个标记为属于两类,一个SVM训练算法建立了一个模型,分配新的实例为一类或其他类,使其成为非概率二元线性分类。一个SVM模型的例子,如在空间中的点、映射,使得所述不同的类别的例子是由一个明显的差距是尽可能宽划分的表示。新的实施例则映射到相同的空间中,并预测基于它们落在所述间隙侧上属于一个类别。

除了进行线性分类,支持向量机可以使用所谓的核技巧,它们的输入隐含映射成高维特征空间中有效地进行非线性分类。

1.1 支持向量机分类的基本原理

根据给定的训练集

支持向量机及相关问题研究_第1张图片

其中,

支持向量机及相关问题研究_第2张图片

支持向量机及相关问题研究_第3张图片

为输入空间,输入空间中的每一个点

支持向量机及相关问题研究_第4张图片

支持向量机及相关问题研究_第5张图片

个属性特征组成,

支持向量机及相关问题研究_第6张图片

支持向量机及相关问题研究_第7张图片

上寻找一个实值函数

支持向量机及相关问题研究_第8张图片

,以便于使用分类函数

支持向量机及相关问题研究_第9张图片

可以推断出任意一个模式

支持向量机及相关问题研究_第10张图片

相对应的

支持向量机及相关问题研究_第11张图片

值的问题为分类问题。

1.1.1线性可分支持向量分类机

考虑训练集

支持向量机及相关问题研究_第12张图片

,若

支持向量机及相关问题研究_第13张图片

和正数

支持向量机及相关问题研究_第14张图片

,使得对所有使

支持向量机及相关问题研究_第15张图片

 的

支持向量机及相关问题研究_第16张图片

支持向量机及相关问题研究_第17张图片

,而对所有的使

支持向量机及相关问题研究_第18张图片

支持向量机及相关问题研究_第19张图片

支持向量机及相关问题研究_第20张图片

,则称训练集

支持向量机及相关问题研究_第21张图片

线性可分,称相应的分类问题是线性可分的。

分别记两类样本集

支持向量机及相关问题研究_第22张图片

定义

支持向量机及相关问题研究_第23张图片

的凸包

支持向量机及相关问题研究_第24张图片

支持向量机及相关问题研究_第25张图片

定义

支持向量机及相关问题研究_第26张图片

的凸包

支持向量机及相关问题研究_第27张图片

支持向量机及相关问题研究_第28张图片

其中,

支持向量机及相关问题研究_第29张图片

为+1类样本集

支持向量机及相关问题研究_第30张图片

中样本点的个数;

支持向量机及相关问题研究_第31张图片

为-1类样本集

支持向量机及相关问题研究_第32张图片

中样本点的个数。

定理1.1 训练集T线性可分得充要条件是,T的两类样本集

支持向量机及相关问题研究_第33张图片

支持向量机及相关问题研究_第34张图片

的凸包相离。

证明   (1)必要性。如果训练集T是线性可分的,则存在超平面

支持向量机及相关问题研究_第35张图片

支持向量机及相关问题研究_第36张图片

使得

支持向量机及相关问题研究_第37张图片

而正类点集凸包中的任意一点

支持向量机及相关问题研究_第38张图片

和负类点集凸包中的任意一点

支持向量机及相关问题研究_第39张图片

可分别表示为

支持向量机及相关问题研究_第40张图片

其中,

支持向量机及相关问题研究_第41张图片

支持向量机及相关问题研究_第42张图片

支持向量机及相关问题研究_第43张图片

于是,

支持向量机及相关问题研究_第44张图片

支持向量机及相关问题研究_第45张图片

所以,正负两类点集的凸包位于超平面

支持向量机及相关问题研究_第46张图片

的两侧,故两个凸包相离。

(2)充分性。假设两类点集

支持向量机及相关问题研究_第47张图片

支持向量机及相关问题研究_第48张图片

的凸包相离。因为两个凸包都是闭凸集,且有界,根据凸集强分离定理,可知存在一个超平面

支持向量机及相关问题研究_第49张图片

抢分这两个凸包,即存在正数

支持向量机及相关问题研究_第50张图片

使得两类点集

支持向量机及相关问题研究_第51张图片

支持向量机及相关问题研究_第52张图片

的任意点

支持向量机及相关问题研究_第53张图片

分别有

支持向量机及相关问题研究_第54张图片

支持向量机及相关问题研究_第55张图片

所以,对于任意的

支持向量机及相关问题研究_第56张图片

,存在

支持向量机及相关问题研究_第57张图片

,对于任意的

支持向量机及相关问题研究_第58张图片

,存在

支持向量机及相关问题研究_第59张图片

,由训练集线性可分的定义可知T是线性可分的。

定义1.1 空间

支持向量机及相关问题研究_第60张图片

中超平面可以表示成

支持向量机及相关问题研究_第61张图片

的形式,参数

支持向量机及相关问题研究_第62张图片

乘以任意一个非零常数后得到的是同一个超平面,定义满足条件

支持向量机及相关问题研究_第63张图片

的超平面为训练集T的规范超平面。

定理1.2 当训练集T为线性可分时,存在唯一的规范超平面

支持向量机及相关问题研究_第64张图片

,使得

支持向量机及相关问题研究_第65张图片

 

证明 规范超平面的存在性是显然的,下证其唯一性。

假设其规范超平面有两个:

支持向量机及相关问题研究_第66张图片

支持向量机及相关问题研究_第67张图片

支持向量机及相关问题研究_第68张图片

。由于规范超平面满足条件

支持向量机及相关问题研究_第69张图片

所以第二个条件为

支持向量机及相关问题研究_第70张图片

支持向量机及相关问题研究_第71张图片

或者

支持向量机及相关问题研究_第72张图片

 其中第一个条件说明

支持向量机及相关问题研究_第73张图片

不能成立,所以唯一性得证。

定义1.2 式满足条件

支持向量机及相关问题研究_第74张图片

成立的

支持向量机及相关问题研究_第75张图片

称为普通支持向量。

支持向量具有稀疏性,对于

支持向量机及相关问题研究_第76张图片

类的样本点,其与规范超平面的间隔为

支持向量机及相关问题研究_第77张图片

对于

支持向量机及相关问题研究_第78张图片

类的样本点,其与规范超平面的间隔为

支持向量机及相关问题研究_第79张图片

则普通支持向量间的间隔为

支持向量机及相关问题研究_第80张图片

1.1.2 线性支持向量分类机

当训练集T的两类样本线性可分时,除了普通支持向量分布在两个分类边界

支持向量机及相关问题研究_第81张图片

上外,其余的所有样本点都分布在分类边界以外。此时够早的超平面是硬间隔超平面。当训练集T的两类样本线性可分时,即允许存在不满足约束条件

支持向量机及相关问题研究_第82张图片

的样本点后,仍然能继续使用超平面进行划分。只要这是要对间隔进行“软化”,构造软间隔超平面。简言之就是在两个分类边界

支持向量机及相关问题研究_第83张图片

之间允许出现样本点,这类样本点被称为边界支持向量。显然,两类样本点集的凸包是相交的,只是相交的部分较小。

软化的方法是通过引入松弛向量

支持向量机及相关问题研究_第84张图片

得到“软化”的约束条件

支持向量机及相关问题研究_第85张图片

支持向量机及相关问题研究_第86张图片

充分大时,样本点总是满足上述的约束条件,但是也要避免

支持向量机及相关问题研究_第87张图片

取太大的值,为此要在目标函数中对它进行惩罚,得到如下所示的二次规划问题:

支持向量机及相关问题研究_第88张图片

支持向量机及相关问题研究_第89张图片

其中,

支持向量机及相关问题研究_第90张图片

为一个惩罚函数,其Lagrange函数为

支持向量机及相关问题研究_第91张图片

其中,

支持向量机及相关问题研究_第92张图片

原问题的对偶问题如下:

支持向量机及相关问题研究_第93张图片

支持向量机及相关问题研究_第94张图片

求解上述最优化问题,得到最优解

支持向量机及相关问题研究_第95张图片

计算

支持向量机及相关问题研究_第96张图片

选择

支持向量机及相关问题研究_第97张图片

的一个正分量

支持向量机及相关问题研究_第98张图片

进行计算,

支持向量机及相关问题研究_第99张图片

所以构造分类超平面

支持向量机及相关问题研究_第100张图片

,并以此求得分类函数为

支持向量机及相关问题研究_第101张图片

进而对未知样本进行分类,可知当

支持向量机及相关问题研究_第102张图片

 ,即等价于线性可分的情况。

1.1.3 可分支持向量分类机

当训练集T的两类样本点集重合的区域很大时,上述用来处理线性可分问题的线性支持向量机就不适用了,可分支持向量分类及给出了解决这种问题的一种有效途径,通过引进从输入空间

支持向量机及相关问题研究_第103张图片

到另一个高维的Hilbert空间H的变换

支持向量机及相关问题研究_第104张图片

将原输入空间

支持向量机及相关问题研究_第105张图片

的训练集

支持向量机及相关问题研究_第106张图片

转换为Hilbert空间H中新的训练集为

支持向量机及相关问题研究_第107张图片

使得在Hilbert空间H中线性可分,Hilbert空间H也称为特征空间。然后在空间H中求得超平面

支持向量机及相关问题研究_第108张图片

,这个超平面可以硬性划分训练集

支持向量机及相关问题研究_第109张图片

,于是原问题转化为如下所示的二次规划问题:

支持向量机及相关问题研究_第110张图片

支持向量机及相关问题研究_第111张图片

采用核函数K满足

支持向量机及相关问题研究_第112张图片

将避免在高维特征空间进行复杂的运算,不同的核函数形成不同的算法。核函数的主要分类如下所示:

线性内核函数

支持向量机及相关问题研究_第113张图片

 ;

多项式核函数

支持向量机及相关问题研究_第114张图片

径向基核函数

支持向量机及相关问题研究_第115张图片

S形内核函数

支持向量机及相关问题研究_第116张图片

傅里叶核函数

支持向量机及相关问题研究_第117张图片

同理,得到其Lagrange函数

支持向量机及相关问题研究_第118张图片

支持向量机及相关问题研究_第119张图片

若K时正定核,则对偶问题是一个凸二次规划问题,必定有解。可得最优解为

支持向量机及相关问题研究_第120张图片

,选择

支持向量机及相关问题研究_第121张图片

的一个正分量

支持向量机及相关问题研究_第122张图片

进行计算,

支持向量机及相关问题研究_第123张图片

所以构造分类函数

支持向量机及相关问题研究_第124张图片

故而对未知样本进行分类。 

1.1.4 C-支持向量分类机

当映射到高维H空间的训练集不能被硬性划分时,需要对约束条件进行软化。结合1.1.2 和1.1.3 中所述,得到模型如下:

支持向量机及相关问题研究_第125张图片

 

得到最优解

支持向量机及相关问题研究_第126张图片

,选择

支持向量机及相关问题研究_第127张图片

的一个正分量

支持向量机及相关问题研究_第128张图片

进行计算,

支持向量机及相关问题研究_第129张图片

构造决策函数

支持向量机及相关问题研究_第130张图片

构造分类函数

支持向量机及相关问题研究_第131张图片

进而对未知样本进行分类。 

当输入空间中的两类样本点的分布区域严重重合时,选择合适的核函数及其参数,可以使映射到特征空间的每一类样本点的分布区域更为集中,降低这两类样本点分布区域的混合程度,可以加强特征空间的两个类样本集“线性可分”程度,提高分类的精度和泛化性能的目的但是就核函数及其参数的选取问题,目前尚无理论依据,对于同样的数据采取不同的核函数得到的精度差别也很大,所以在实际解决问题的过程中,对于同样的问题往往要进行多次仿真训练才能找到最佳参数。

以下论证支持向量和Lagrange 乘子之间的关系。

定理1.3 对偶问题式的最优解为

支持向量机及相关问题研究_第132张图片

,使得每个样本点

支持向量机及相关问题研究_第133张图片

满足优化问题的KKT条件为

支持向量机及相关问题研究_第134张图片

支持向量机及相关问题研究_第135张图片

支持向量机及相关问题研究_第136张图片

其中,

支持向量机及相关问题研究_第137张图片

,对应样本点

支持向量机及相关问题研究_第138张图片

就是普通支持向量(NSV),位于分类间隔的边界

支持向量机及相关问题研究_第139张图片

上,存在

支持向量机及相关问题研究_第140张图片

所对应的样本点

支持向量机及相关问题研究_第141张图片

就是边界支持向量(BSV),代表了所有的错分样本点,位于分类间隔内部,存在

支持向量机及相关问题研究_第142张图片

支持向量机及相关问题研究_第143张图片

就是支持向量集。

1.2 蠓虫分类问题研究

1.2.1 问题重述

生物学家试图对两种蠓虫进行鉴别,依据的资料是触角和翅膀的长度,已经测得了9支Af和6支Apf的数据如下:

Af:(1.24,1.27),(1.36,1.74),(1.38,1.64),(1.38,1.82),(1.38,1.90),(1.40,1.70),(1.48,1.82),(1.54,1.82),(1.56,2.08)

Apf:(1.14,1.82),(1.18,1.96),(1.20,1.86),(1.26,2.00),(1.28,2.00),(1.30,1.96)

现在的问题是:

  1. 根据如上资料,如何制定一种方法,正确的区分两类蠓虫?
  2. 对触角和翼长分别为(1.24,1.80)、(1.28,1.84)、(1.40,2.04)的三个标本,用所得到的方法加以识别。

1.2.2 符号规定与基本假设

1. 符号规定
  1. 支持向量机及相关问题研究_第144张图片

    支持向量机及相关问题研究_第145张图片

     表示蠓虫的触角;
  2. 支持向量机及相关问题研究_第146张图片

    支持向量机及相关问题研究_第147张图片

     表示蠓虫的翼长;
  3. 支持向量机及相关问题研究_第148张图片

     表示Af;
  4. 支持向量机及相关问题研究_第149张图片

     表示Apf;
2.基本假设
  1. 假设两种蠓虫的差别在触角和翼长
  2. 假设两种蠓虫没有杂交产生的品种

1.2.3 模型的建立与分析

对于观测样本进行线性分析,找到最有分类面

支持向量机及相关问题研究_第150张图片

,其中

支持向量机及相关问题研究_第151张图片

支持向量机及相关问题研究_第152张图片

则约束条件为

支持向量机及相关问题研究_第153张图片

其中,

支持向量机及相关问题研究_第154张图片

 其中,满足方程

支持向量机及相关问题研究_第155张图片

的样本为支持向量。

两类总体到分类面的距离最大时,满足条件为

支持向量机及相关问题研究_第156张图片

则建立SVM数学模型。

SVM模型:

支持向量机及相关问题研究_第157张图片

支持向量机及相关问题研究_第158张图片

可求得最优值对应的

支持向量机及相关问题研究_第159张图片

可得分类函数、

支持向量机及相关问题研究_第160张图片

 

对于分类函数式,若

支持向量机及相关问题研究_第161张图片

,则样本归于Af类,若

支持向量机及相关问题研究_第162张图片

,则样本归于Apf类。

SVN数学模型表示二次规划模型,将其转化为对偶问题来进行研究。

引入拉格朗日函数:

支持向量机及相关问题研究_第163张图片

 

其中,

支持向量机及相关问题研究_第164张图片

由KKT互补条件,对

支持向量机及相关问题研究_第165张图片

支持向量机及相关问题研究_第166张图片

求偏导,得

支持向量机及相关问题研究_第167张图片

可得

支持向量机及相关问题研究_第168张图片

代入原始拉格朗日函数式,可知

支持向量机及相关问题研究_第169张图片

则可将SVM 模型转化为拉格朗日函数模型,则对应约束条件为

支持向量机及相关问题研究_第170张图片

解之可得最优解

支持向量机及相关问题研究_第171张图片

,从而得权重向量

支持向量机及相关问题研究_第172张图片

根据KKT互补条件可知

支持向量机及相关问题研究_第173张图片

再次选择

支持向量机及相关问题研究_第174张图片

 得一个正分量

支持向量机及相关问题研究_第175张图片

进行计算

支持向量机及相关问题研究_第176张图片

可得最终的分类函数表达式为

支持向量机及相关问题研究_第177张图片

其中,

支持向量机及相关问题研究_第178张图片

式核函数的线性形式。非线性核函数可以将原样本空间线性不可分的向量转化到高维特征空间中的可分的向量。

则将拉格朗日函数转换为一般的核函数

支持向量机及相关问题研究_第179张图片

,即可得一般模型。

核函数模型:

支持向量机及相关问题研究_第180张图片

 

由式可得分类函数的表达式为

支持向量机及相关问题研究_第181张图片

1.2.4 模型的求解

对于未知样本进行分类。使用SVM模型或者拉格朗日函数函数模型即可进行分析。

计算的MATLAB代码如下所示:

clc,clear

x0=[1.24,1.27;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90;1.40,1.70

    1.48,1.82;1.54,1.82;1.56,2.08;1.14,1.82;1.18,1.96;1.20,1.86

    1.26,2.00;1.28,2.00;1.30,1.96];

x=[1.24,1.80;1.28,1.84;1.40,2.04];

group = [ones(9,1);-ones(6,1)];

s = svmtrain(x0,group);

check=svmclassify(s,x0);

solution=svmclassify(s,x);

支持向量机及相关问题研究_第182张图片

图1.1 运行所得结果

1.2.5 结果分析

对于未知样本进行分类。使用SVM模型或者拉格朗日函数函数模型即可进行分析。3个代判定的样本点全部判为Apf类,且经过验证可知样本点的误判率为0。

1.3 优化问题研究

1.3.1 问题重述

支持向量机及相关问题研究_第183张图片

支持向量机及相关问题研究_第184张图片

讨论参数

支持向量机及相关问题研究_第185张图片

变化产生的影响,导出对偶表示形式。

1.3.2 模型的建立与分析

问题

支持向量机及相关问题研究_第186张图片

支持向量机及相关问题研究_第187张图片

与问题

支持向量机及相关问题研究_第188张图片

支持向量机及相关问题研究_第189张图片

相等价,仅考虑参数

支持向量机及相关问题研究_第190张图片

变化产生的影响。

1.3.3 模型的求解

当参数

支持向量机及相关问题研究_第191张图片

时,即目标函数的惩罚因子较小,则

支持向量机及相关问题研究_第192张图片

可取较大的值。参数

支持向量机及相关问题研究_第193张图片

时,则

支持向量机及相关问题研究_第194张图片

可取正值,则问题等价于

支持向量机及相关问题研究_第195张图片

支持向量机及相关问题研究_第196张图片

引入Lagrange函数来表示对偶形式,

支持向量机及相关问题研究_第197张图片

 

式中,

支持向量机及相关问题研究_第198张图片

,对L关于

支持向量机及相关问题研究_第199张图片

求极小,即

支持向量机及相关问题研究_第200张图片

支持向量机及相关问题研究_第201张图片

支持向量机及相关问题研究_第202张图片

支持向量机及相关问题研究_第203张图片

1.3.4 结果分析

已知上述极值条件,将其带入Lagrange函数,在对

支持向量机及相关问题研究_第204张图片

求极大,即可得对偶问题

支持向量机及相关问题研究_第205张图片

你可能感兴趣的:(数据结构,算法)