支持向量机---SVM 最小二乘支持向量机---LSSVM

1.SVM

支持向量机的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合业损失函数的最小化问题。

给定训练样本集D={(x1,y1),(x2,y2),...,(xm,ym)},yi\epsilon{-1,+1},分类学习的最基本想法基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开。

样本空间中,划分超平面可通过如下线性方程来描述:

\omegax+b=0(\omega为法向量,b为位移项)

样本空间任意点x到超平面(\omega,b)的距离可写为

r=|\omegax+b| / ||\omega||

Correctly classify all data points:

\left\{\begin{matrix} \omega x_{i}+b\geqslant 1 & if & y_{i}=+1\\ \omega x_{i}+b\leqslant 1& if& y_{I}=-1 \end{matrix}\right.

\Rightarrowy_{i}(\omega x_{i}+b)-1\geqslant 0

如下图,距离超平面最近的几个点使得等式成立,称其为支持向量,两个异类支持向量到超平面的距离之和为

\gamma =\frac{2}{\left \| \omega \right \|}  

\rightarrowMargins
 

支持向量机---SVM 最小二乘支持向量机---LSSVM_第1张图片

 

接下来Maximize the Margins

maxM\frac{2}{\left \| \omega \right \|}\Rightarrow min\frac{1}{2}\omega ^{T}\omega

 

Quadratic Optimization Problem 

  • Minimize      \Phi (\omega )=\frac{1}{2}\omega^{t}\omega
  • Subject to    y_{i}(\omega x_{i}+b)\geqslant 1

\omega与b的求解可对上述式子使用拉格朗日乘子法得到其“对偶问题”求解,在此不做过多讲述(最终模型只与支持向量有关)。

注:对于训练样本非线性可分,就需要将样本映射到一个更高维的特征空间,使得样本在这个特征空间中线性可分,但是高维同时也意味着计算量的急剧提升,所以引入了核函数,将高维问题通过数学技巧在低维解决,事实上只要一个对称函数所对应的核矩阵半正定,他就能作为核函数使用。

2.LSSVM-最小二乘支持向量机

2.1最小二乘法

 通过最小化误差的平方和,使得拟合对象无限接近目标对象

拟合的前提:

  1. N个point{(x1,y1),(x2,y2),...(xm,ym)};
  2. 确定目标,即我们想把这些点拟合成什么样的特征即函数f(x,a1,a2,...am);
  3. 要确定此函数就需要知道函数中的参数a1,a2,...,am

 求参的过程就是拟合的过程。

拟合满足的条件:\sum_{i=1}^{N }r_{i}^{2}=\sum_{i=1}^{N}[f(x_{i},\alpha _{1},\alpha_{2},...,\alpha_{n})-y_{i}]^{2}=min

对任意函数f的通用解法

  1. 列出损失函数E=\sum_{i=1}^{n}e_{i}^{2}=\sum_{i=1}^{n}(y_{I}-\hat{y})^{2}
  2. 根据损失函数对参数应用多元函数的求极值方法,直接求解函数最小值。而更常见的方法即是将损失函数用和参数表示,然后使用梯度下降算法。
  3. 求得函数最小值的参数或待到梯度算法收敛,此时的参数即为所求
    这些个步骤说起来抽象,实际上这是在机器学习中应用最广泛的方法。但是对于后面的线性回归问题,有着更简洁的推导方法。

最小二乘支持向量机将SVM不等式约束改用等式约束

  • Minimize      \Phi (\omega )=\frac{1}{2}\omega^{t}\omega
  • Subject to    y_{i}(\omega x_{i}+b)= 1

为了解决存在部分特异点的情况,给每一个样本引入误差变量ei​,并在原始函数中加入误差变量的L2正则项。这样LSSVM的优化问题就转化为

  • Minimize      \Phi (\omega )=\frac{1}{2}\omega^{t}\omega+\frac{\lambda }{2}\sum_{i=1}^{m}e_{i}^{2}
  • Subject to    y_{i}(\omega x_{i}+b)= 1-e_{i}

其中,λ为正则化参数。对于非线性可分的训练样本,可以将原始样本从映射到更高维的线性可分的空间中。φ(xi​)将xi​映射到更高维空间中

LSSVM的优化问题是一个带有等式约束的QP问题,求解可对上述式子使用拉格朗日乘子法得到其“对偶问题”求解

  • 由于是解线性方程组,LSSVM的求解显然更快,但标准基本形式的LSSVM的预测精准度比SVM稍差一些。
  • SVM中只有支持向量对应的Lagrange乘子为非零数值,但在LSSVM中Lagrange乘子序列α与误差序列e=[e1​,e2​,⋯,em​]T成正比。我们把LSSVM中Lagrange乘子序列α称为支持数值谱
  • LSSVM模型的缺点:LSSVM缺乏稀疏性,数据集中的所有样本对新样本的预测都有所贡献,贡献的大小是由对应的Lagrange乘子(支持数值)的大小决定的

参考资料:

【1】https://blog.csdn.net/Luqiang_Shi/article/details/84204636

【2】机器学习/周志华著.-北京:清华大学出版社

【3】统计学习方法/李航著.-北京:清华大学出版社

你可能感兴趣的:(机器学习)