Andrew NG 《machine learning》week 7,class1 —Large Margin Classification

Andrew NG 《machine learning》week 7,class1 —Large Margin Classification

本课主要是通过逻辑回归函数来进行支持向量机(SVM)的学习。与之前学习的监督学习算法一样,先是讨论算法的假设函数,之后再是代价函数,之后在进行评估。

1.1 Optimization Objective

下图先是展示了逻辑回归函数的代价函数,然后利用逻辑回归的代价函数重新画了一遍,分别用cos1(z)和cos2(z)表示两种情况,如下图:
Andrew NG 《machine learning》week 7,class1 —Large Margin Classification_第1张图片
接下来,对于表达式进行变形,将获得以下表达式:
Andrew NG 《machine learning》week 7,class1 —Large Margin Classification_第2张图片

假设的条件分别是什么呢?如下所示:
Andrew NG 《machine learning》week 7,class1 —Large Margin Classification_第3张图片

1.2 Large Margin Intuition

有时候人们会将SVM叫做大间距分类器。为什么会这么叫呢?本小节将会解释其中的含义,帮助更好的理解SVM。
Andrew NG 《machine learning》week 7,class1 —Large Margin Classification_第4张图片
如上图所示,逻辑回归的临界点为0,但是SVM的临界点是1,所以SVM更加精确。
下图是SVM的决策的边界值。
Andrew NG 《machine learning》week 7,class1 —Large Margin Classification_第5张图片
假设当C这个正则化参数非常非常大的时候,要求解代价函数的最小值,那么将会导致与C相乘的项为0的时候才会使代价函数最小。这个时候需要求解的最优参数就会如下图所示。
Andrew NG 《machine learning》week 7,class1 —Large Margin Classification_第6张图片
如图所示,求出的最优参数是中间的那条黑线,这条黑线到正负样本的距离都基本相等,是俊均匀的。是到正负样本距离的最大值。所以此时就叫做最大间距分类器。但是这样当C很大的时候才会成立。
这样做也会存在一个巨大的问题,就是当有一个干扰点的时候,那么就会导致分类的线偏差很大。如下图:
Andrew NG 《machine learning》week 7,class1 —Large Margin Classification_第7张图片
当出现一个干扰点的时候,那么分类线就会由黑线转为粉线,这个会导致错误的分类,所以C的值不能太大也不能太小。
至于求解最优参数的过程,将会在之后的视频中讲解。

1.3 Mathematics Behind Large Margin Classification

本小节将会介绍在大间距分类更深处的一些数学的原理。
首先先回顾一下内积的概念。如下图所示:
Andrew NG 《machine learning》week 7,class1 —Large Margin Classification_第8张图片
用求出P的方法和直接用矩阵的方法求出的值是一样的,需要注意的是,P的值在图中第二个坐标的时候会是负的情况。
那么对于SVM中的代价函数,当C很大很大的时候,怎么求解最优参数,可以将内积的概念来解释。如下图:
Andrew NG 《machine learning》week 7,class1 —Large Margin Classification_第9张图片
如图中所示的那样,可以将参数设为U,将第i个样本的X设为V,那么就可以用之前内积的知识来进行解释。
接下来将会详细讲解求解参数最优化的过程。如下图:
Andrew NG 《machine learning》week 7,class1 —Large Margin Classification_第10张图片
如上图所示,SVM的目标优化是求解参数的最小值,为了让过程简化,令参数0为0,那么这样决策线就会经过原点。若是选择上图中的左图中的绿色线作为决策树,那么P(i)(样本点在参数上的投影)就会很小,那么要满足P(i)* ||thera|| >= 1的话,那么参数thera就要求很大,但是这样就不满足求thera最小值的目标了,所以左图是不符合条件的选择。右图是符合条件的决策树的选择,因为到正负样本点的距离都是尽可能的大,这样保证参数能尽可能的小。

你可能感兴趣的:(machine,learning)