【读书笔记】周志华 机器学习 第六章 支持向量机

第六章 支持向量机

  • 1 间隔和支持向量
  • 2 核函数
  • 3 软间隔和正则化
  • 4 参考文献

1 间隔和支持向量

【读书笔记】周志华 机器学习 第六章 支持向量机_第1张图片
对上图所示的数据集,有多个超平面可以划分。直观上来说,最中间加粗的那个超平面是最好的,因为离两类数据都比较远。“离两类数据都比较远”的好超平面指的是离超平面最近的点到超平面的距离最大
【读书笔记】周志华 机器学习 第六章 支持向量机_第2张图片
y i w x i ∣ ∣ w ∣ ∣ y_i \frac {{\boldsymbol w}x_i}{||{\boldsymbol w}||} yi∣∣w∣∣wxi表示所有数据到超平面的距离。
d i s t < = y i w x i ∣ ∣ w ∣ ∣ dist <= y_i \frac {{\boldsymbol w}x_i}{||{\boldsymbol w}||} dist<=yi∣∣w∣∣wxi表示dist是最小距离。
m a x   d i s t max\ dist max dist表示要最大化最小距离。
这样,如图所示的最优化问题的求解结果就是希望找的最优超平面。
使用拉格朗日函数法求解该最优化问题。最后可以证明对参数w和b有影响的数据都是离最优超平面最近的点,其他点不影响参数。这些最近的点称为支持向量。在实际学习过程中常使用SMO算法以加快学习速度。

2 核函数

对于非线性可分的数据,可将样本映射到更高维的空间 x − > φ ( x ) {\boldsymbol x}->\varphi ({\boldsymbol x}) x>φ(x),比如 x − > x 2 x -> x^2 x>x2。已经证明,当非线性可分数据特征有限时,一定存在某个高维空间使得其线性可分。问题是,我们事先并不知道该如何映射,不知道是将x映射为平方还是立方。核函数 K ( x 1 , x 2 ) = φ ( x 1 ) ∗ φ ( x 2 ) K({\boldsymbol x}_1, {\boldsymbol x}_2) = {\varphi({\boldsymbol x}_1)}*{\varphi ({\boldsymbol x}_2)} K(x1,x2)=φ(x1)φ(x2)让我们不必知道具体的映射 φ ( x ) \varphi ({\boldsymbol x}) φ(x),只用知道映射之后内积的结果。常用核函数如下图所示。
【读书笔记】周志华 机器学习 第六章 支持向量机_第3张图片

3 软间隔和正则化

当数据含有噪声时,我们可以适当降低最大距离的要求。同时,加入惩罚项避免一味降低要求。和之间避免过拟合加入正则项类似。
【读书笔记】周志华 机器学习 第六章 支持向量机_第4张图片

4 参考文献

周志华 机器学习 清华大学出版社
谢文睿、秦州 机器学习公式详解 人民邮电出版社
李航 统计学习方法第二版 清华大学出版社
部分图片和文字源自网络和书本,如有侵权联系删除

你可能感兴趣的:(机器学习,支持向量机,人工智能)