机器学习西瓜书和南瓜书第6章学习笔记

一、支持向量机

1.算法原理

        从几何角度,对于线性可分数据集,支持向量机就是找距离正负样本都最远的超平面。相比于感知机,其解唯一且不偏不倚,泛化性能更好。

2.超平面

        n维超平面\boldsymbol{w}^{T}\boldsymbol{x}-b=0性质如下:

(1)超平面方程不唯一;

(2)法向量\boldsymbol{w}和位移项b确定唯一的超平面;

(3)法向量\boldsymbol{w}垂直于超平面;

(4)法向量\boldsymbol{w}指向的那一半空间为正空间,另一半为负空间;

(5)任一点\boldsymbol{x}_{0}到超平面的距离公式为r=\frac{|\boldsymbol{w}^{T}\boldsymbol{x}_{0}-b|}{||\boldsymbol{w}||}

3.几何间隔

        给定数据集X和超平面\boldsymbol{w}^{T}\boldsymbol{x}-b=0(\boldsymbol{x}_{i},y_{i})\in Xy_{i}\in \left \{ -1,1 \right \}i=1,2,...,m,定义样本点(\boldsymbol{x}_{i},y_{i})关于超平面的几何间隔为\gamma _{i}=\frac{y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}-b)}{||\boldsymbol{w}||}。正确分类时\gamma _{i}>0,反之\gamma _{i}<0。定义数据集X关于超平面的几何间隔为所有样本点(\boldsymbol{x}_{i},y_{i})关于超平面的几何间隔的最小值,即\gamma =min_{i=1,2,...,m}\gamma _{i}

4.支持向量机

        给定线性可分数据集X,支持向量机模型希望求得X于超平面的几何间隔\gamma的达到最大的超平面,套上sign函数实现分类功能。sign函数为

y=sign(\boldsymbol{w}^{T}\boldsymbol{x}-b)=\left\{\begin{matrix}1,\boldsymbol{w}^{T}\boldsymbol{x}-b>0 \\ -1,\boldsymbol{w}^{T}\boldsymbol{x}-b<0 \end{matrix}\right.

        令\gamma =\frac{y_{min}(\boldsymbol{w}^{T}\boldsymbol{x}_{min}-b)}{||\boldsymbol{w}||}\frac{y_{min}(\boldsymbol{w}^{T}\boldsymbol{x}_{min}-b)}{||\boldsymbol{w}||}\leqslant \frac{y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}-b)}{||\boldsymbol{w}||}{y_{min}(\boldsymbol{w}^{T}\boldsymbol{x}_{min}-b)}\leqslant {y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}-b)}。令{y_{min}(\boldsymbol{w}^{T}\boldsymbol{x}_{min}-b)}=1,则1-{y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}-b)}\leqslant 0。在此条件下求argmin_{\boldsymbol{w},b}\frac{1}{2}||\boldsymbol{w}||^{2}

        求拉格朗日函数L(\boldsymbol{w},b,\boldsymbol{\alpha })=\frac{1}{2}||\boldsymbol{w}||^{2}+\sum_{i=1}^{m}\alpha _{i}-\sum_{i=1}^{m}\alpha _{i}y_{i}\boldsymbol{w}^{T}\boldsymbol{x}_{i}-b\sum_{i=1}^{m}\alpha _{i}y_{i}。将\boldsymbol{w}b合并为\widehat{\boldsymbol{w}}=(\boldsymbol{w},b),求使L(\boldsymbol{w},b,\boldsymbol{\alpha })的一阶偏导数为0的\widehat{\boldsymbol{w}}代回去得到最小值。

二、软间隔与支持向量回归

1.算法原理

        在现实任务中,线性不可分才是最常见的,因此需要允许支持向量机犯错。

2.软间隔

        从数学角度看,软间隔允许部分样本(尽可能少)不满足1-{y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}-b)}\leqslant 0的间隔,因此可以将必须严格执行的约束条件转化为具有一定灵活性的损失,即

min_{\boldsymbol{w},b}\frac{1}{2}||\boldsymbol{w}||^{2} +C\sum_{i=1}^{m}l_{0/1}({y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}-b)} -1)

其中l_{0/1}是0/1损失函数

l_{0/1}(z)=\left\{\begin{matrix}1,z<0 \\ 0,z\geqslant 0 \end{matrix}\right.

C>0是一个常数,用来调节损失的权重。用l_{hinge}=max(0,1-z)代替l_{0/1},得

min_{\boldsymbol{w},b}\frac{1}{2}||\boldsymbol{w}||^{2} +C\sum_{i=1}^{m}max(0,1-{y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}-b)} )

引入松弛变量\xi _{i},令\xi _{i}=max(0,1-{y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}-b)} ),问题转化为

min_{\boldsymbol{w},b,\xi _{i}}\frac{1}{2}||\boldsymbol{w}||^{2} +C\sum_{i=1}^{m}\xi _{i}

{y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}-b)}\geqslant 1-\xi _{i}

\xi _{i}\geqslant 0

3.支持向量回归

        支持向量回归采用一个以f(\boldsymbol{x})=\boldsymbol{w}^{T}\boldsymbol{x}-b为中心,宽为2\epsilon的间隔带来拟合样本,间隔带内不计损失,间隔带外样本到间隔带边界的距离为损失。

min_{\boldsymbol{w},b}\frac{1}{2}||\boldsymbol{w}||^{2} +C\sum_{i=1}^{m}l_{\epsilon }(f(\boldsymbol{x}_{i})-y_{i})

其中l_{\epsilon }\epsilon不敏感函数

l_{\epsilon }(z)=\left\{\begin{matrix}0,|z|\leqslant \epsilon \\ |z|-\epsilon ,|z|>\epsilon \end{matrix}\right.

引入松弛变量\xi _{i},令\xi _{i}=l_{\epsilon }(f(\boldsymbol{x}_{i})-y_{i}),问题转化为

min_{\boldsymbol{w},b,\xi _{i}}\frac{1}{2}||\boldsymbol{w}||^{2} +C\sum_{i=1}^{m}\xi _{i}

-\xi _{i} -\epsilon \leqslant f(\boldsymbol{x}_{i})-y_{i}\leqslant \epsilon +\xi _{i}

\xi _{i}\geqslant 0

如果两边采用不同的松弛程度,问题为

min_{\boldsymbol{w},b,\xi _{i},\widehat{\xi }_{i}}\frac{1}{2}||\boldsymbol{w}||^{2} +C\sum_{i=1}^{m}(\xi _{i}+\widehat{\xi }_{i})

-\widehat{ \xi} _{i} -\epsilon \leqslant f(\boldsymbol{x}_{i})-y_{i}\leqslant \epsilon +\xi _{i}

\xi _{i}\geqslant 0

\widehat{\xi} _{i}\geqslant 0

        本文知识点参考自周志华《机器学习》和https://www.bilibili.com/video/BV1Mh411e7VU?p=10&vd_source=bf244e193683634d74ec4694f6a67393并结合自己理解完成。

你可能感兴趣的:(机器学习,学习,笔记)