SVM百家争鸣之基于向量投影的支持向量机预选取

       总所周知,SVM是通过解决一个二次规划问题得到一个全局最优解,这就导致了在实际应用中常常需要耗费大量的内存和时间。现有的大多数方法是通过减少训练样本来减少支持向量,从而加快训练速度。这篇文章来自李青等的论文《基于向量投影的支持向量机预选取》。

      基本思想是,m1和m2分别是1类样本,2类样本的中心点,xf(0)为样本1的一个样本,xf为xf(0)投影到m1m2的点。分类样本的中心点很好求,把已知样本1的所有点相加除以个数就行了。

     SVM百家争鸣之基于向量投影的支持向量机预选取_第1张图片

定义:  ,xi(0)是样本1的其中一个样本,看上面的图r1表示m1xf中长度最长的,注意这里是有方向的。

下面定义边界向量:


d是m1m2的距离。对于1类样本,边界向量就是样本1投影到m1m2的距离小于r1,大于r1-的样本,对于2类样本,边界向量就是样本2投影到m2m1的距离小于r2,大于r2-的样本.而对于r1+r2>d的情况:边界向量定义为:


论文的主题是认为边界向量集能包含大多数的支持向量集,预选取就是在所有的训练样本中选取边界向量来作为下一步的训练,这样就能大大减少对不必要的样本进行训练,从而减少训练时间。

   当然这里还有很多其他的细节,具体参考李青等等论文《基于向量投影的支持向量机预选取》。


你可能感兴趣的:(SVM百家争鸣之基于向量投影的支持向量机预选取)