【统计学习方法】第七章 支持向量机

文章目录

  • 基础概念
    • 1. 线性可分支持向量机——数据线性可分
    • 2. 线性支持向量机——数据近似线性可分
    • 3. 非线性支持向量机——数据线性不可分
  • 第七章 支持向量机
    • 1. 线性可分支持向量机与硬间隔最大化
      • 1.1 函数间隔与几何间隔
      • 1.2 线性可分支持向量机
    • 2. 线性支持向量机与软间隔最大化

基础概念

支持向量机(SVM)是一种二分类模型,
支持向量机的学习策略是——间隔最大化。

1. 线性可分支持向量机——数据线性可分

训练数据线性可分——通过硬间隔最大化,学习线性分类器,即线性可分支持向量机,又称为硬间隔支持向量机。

2. 线性支持向量机——数据近似线性可分

训练数据近似线性可分,通过软间隔最大化,学习一个线性分类器,即线性支持向量机,又称为软间隔支持向量机。

3. 非线性支持向量机——数据线性不可分

训练数据集线性不可分,通过核技巧和软间隔最大化,学习非线性支持向量机。

 

第七章 支持向量机

 

1. 线性可分支持向量机与硬间隔最大化

1.1 函数间隔与几何间隔

【函数间隔】
超平面 ( w , b ) (w,b) (w,b)关于样本点 ( x i , y i ) (x_i,y_i) (xi,yi)的函数间隔为:
γ ^ i = y i ( w x i + b ) \hat{\gamma}_i = y_i(wx_i + b) γ^i=yi(wxi+b)
超平面关于训练数据集的函数间隔,为超平面关于训练数据集中所有样本点的函数间隔的最小值,即
γ ^ = m i n γ ^ i \hat{\gamma}= min\hat{\gamma}_i γ^=minγ^i

【几何间隔】
对函数间隔做归一化,就是几何间隔。
γ i = y i ( w ∣ ∣ w ∣ ∣ x i + b ∣ ∣ w ∣ ∣ ) = γ ^ i ∣ ∣ w ∣ ∣ \gamma_i = y_i(\frac{w}{||w||}x_i + \frac{b}{||w||}) = \frac{\hat{\gamma}_i}{||w||} γi=yi(wwxi+wb)=wγ^i
超平面关于训练数据集的几何间隔,为超平面关于训练数据集中所有样本点的几何间隔的最小值,即

【二者的区别】
如果成比例的改变 w w w b b b,函数间隔也会按比例变化,但是几何间隔由于是归一化的操作,所以不会变化。
如果 ∣ ∣ w ∣ ∣ = 1 ||w||=1 w=1,函数间隔和几何间隔相等。

1.2 线性可分支持向量机

感知机利用的是误分类最小的策略,求得分离超平面(也就是说,只要所有的点都分类正确了,误分类误差就为0),这时的解有无穷多个。线性可分支持向量机利用间隔最大化求最优分离超平面,这时的解是唯一的。

线性可分向量机的含义:将两类数据正确划分,并且几何间隔最大的分离超平面。即求解最优化问题:
m a x    γ max \space \space \gamma max  γ
s . t    y i ( w ∣ ∣ w ∣ ∣ x i + b ∣ ∣ w ∣ ∣ ) ≥ γ ,   i = 1 , 2 , . . . N s.t \space \space y_i(\frac{w}{||w||}x_i + \frac{b}{||w||}) \ge \gamma, \space i=1,2,...N s.t  yi(wwxi+wb)γ, i=1,2,...N
通过化简和优化,可将上述最优化问题变为:
m i n 1 ∣ ∣ w ∣ ∣ 2 min {\frac{1}{||w||}}^2 minw12
s . t .    y i ( w x i + b ) − 1 ≥ 0 s.t. \space \space y_i(wx_i + b)-1 \ge 0 s.t.  yi(wxi+b)10
该最优化问题有存在且唯一解。

【支持向量】
就是在分离超平面上的向量。支持向量使约束条件等号成立。下图在虚线上的点就是支持向量。在决定分离超平面的时候只有支持向量起作用,而其他实例点不起作用。移动支持向量,将会改变所求解,移动其他点,不会影响分离超平面。由于支持向量的个数很少,所以支持向量机是由很少的“重要”训练样本所确定。
【统计学习方法】第七章 支持向量机_第1张图片
【间隔边界】
如上图所示,中间实线为分离超平面。超平面两边对称分布两条虚线,两条虚线的距离称为间隔,间隔为 2 ∣ ∣ w ∣ ∣ \frac{2}{||w||} w2

 

2. 线性支持向量机与软间隔最大化

未完待更。

你可能感兴趣的:(机器学习)