机器学习技法笔记5:Kernel 逻辑回归

5-1 Soft-Margin SVM as Regularized Model

前面几篇:
机器学习技法笔记1:线性SVM
机器学习技法笔记2: SVM的对偶形式
机器学习技法笔记3: Kernel SVM
机器学习技法笔记4: Soft Margin SVM
上节课我们主要介绍了Soft-Margin SVM,即如果允许有分类错误的点存在, 那么在原来的Hard-Margin SVM中添加新的惩罚因子C,修正原来的公式, 得到新的αn值。最终的到的αn有个上界,上界就是C。Soft-Margin SVM权 衡了large-margin和error point之前的关系,目的是在尽可能犯更少错误的 前提下,得到最大分类边界。
本节课将把Soft-Margin SVM和我们之前介绍的Logistic Regression联系起来,研究如何使用kernel技巧来解决更多的问题。
机器学习技法笔记5:Kernel 逻辑回归_第1张图片
机器学习技法笔记5:Kernel 逻辑回归_第2张图片
机器学习技法笔记5:Kernel 逻辑回归_第3张图片
机器学习技法笔记5:Kernel 逻辑回归_第4张图片
机器学习技法笔记5:Kernel 逻辑回归_第5张图片
这里提一下,既然unconstrained form SVM与L2 Regularization的形式是 一致的,而且L2 Regularization的解法我们之前也介绍过,那么为什么不直 接利用这种方法来解决unconstrained form SVM的问题呢?
有两个原因。 一个是这种无条件的最优化问题无法通过QP解决,即对偶推导和kernel都无 法使用;另一个是这种形式中包含的max()项可能造成函数并不是处处可导, 这种情况难以用微分方法解决。
机器学习技法笔记5:Kernel 逻辑回归_第6张图片
机器学习技法笔记5:Kernel 逻辑回归_第7张图片
5、
通过对比,我们发现L2 Regularization和Soft-Margin SVM的形式是相同 的,两个式子分别包含了参数λ和C。Soft-Margin SVM中的large margin 对应着L2
Regularization中的short w,也就是都让hyperplanes更简单一些。我们使 用特别的err^来代表可以容忍犯错误的程度,即soft margin。
机器学习技法笔记5:Kernel 逻辑回归_第8张图片
机器学习技法笔记5:Kernel 逻辑回归_第9张图片

5-2 SVM versus Logistic Regression

机器学习技法笔记5:Kernel 逻辑回归_第10张图片
机器学习技法笔记5:Kernel 逻辑回归_第11张图片
所以,可以使用err^svm来代替err0/1,解决二元线性分类问题,而且err^svm 是一个凸函数,使它在最佳化问题中有更好的性质。
机器学习技法笔记5:Kernel 逻辑回归_第12张图片
机器学习技法笔记5:Kernel 逻辑回归_第13张图片
3、
总结一下,我们已经介绍过几种Binary Classification的Linear Models,包 括PLA,Logistic Regression和Soft-Margin SVM。
PLA是相对简单的一个模型,对应的是err0/1,通过不断修正错误的点来获得 最佳分类线。它的优点是简单快速,缺点是只对线性可分的情况有用,线性不 可分的情况需要用到pocket算法。
Logistic Regression对应的是errsCE,通常使用GD(gradient design)/SGD 算法求解最佳分类线。它的优点是凸函数errsCE便于最优化求解,而且有 regularization作为避免过拟合的保证;缺点是errsCE作为err0/1的上界,当 ys很小(负值)时,上界变得更宽松,不利于最优化求解。
Soft-Margin SVM对应的是err^svm,通常使用QP求解最佳分类线。它的 优点和Logistic Regression一样,凸优化问题计算简单而且分类线比较“粗 壮”一些;缺点也和Logistic Regression一样,当ys很小(负值)时,上界 变得过于宽松。其实,Logistic Regression和Soft-Margin SVM都是在最佳 化err0/1的上界而已。
机器学习技法笔记5:Kernel 逻辑回归_第14张图片
机器学习技法笔记5:Kernel 逻辑回归_第15张图片

5-3 SVM for Soft Binary Classification

1、 接下来,我们探讨如何将SVM的结果应用在Soft Binary Classification中, 得到是正类的概率值。
第一种简单的方法是先得到SVM的解(bsvm,wsvm),然后直接代入到logistic regression中,得到g(x)=θ(wTsvmx+bsvm)。这种方法直接使用了SVM和 logistic regression的相似性,一般情况下表现还不错。但是,这种形式过于 简单,与logistic regression的关联不大,没有使用到logistic regression中 好的性质和方法。
机器学习技法笔记5:Kernel 逻辑回归_第16张图片

第二种简单的方法是同样先得到SVM的解(bsvm,wsvm),然后把(bsvm,wsvm)作 为logistic regression的初始值,再进行迭代训练修正,速度比较快,最后, 将得到的b和w代入到g(x)中。这种做法有点显得多此一举,因为并没有比直 接使用logistic regression快捷多少。
机器学习技法笔记5:Kernel 逻辑回归_第17张图片
机器学习技法笔记5:Kernel 逻辑回归_第18张图片
机器学习技法笔记5:Kernel 逻辑回归_第19张图片
机器学习技法笔记5:Kernel 逻辑回归_第20张图片

3、 归纳一下,这种Probabilistic SVM的做法分为三个步骤:
机器学习技法笔记5:Kernel 逻辑回归_第21张图片
以上介绍了我们怎么对kernel SVM进行微调,作为z空间中逻辑回归问题的 最优解。可是实际上,我们没有真正在z空间中去寻找最优解,z空间中真正 的最优解会在下一节学习
机器学习技法笔记5:Kernel 逻辑回归_第22张图片

5-4 Kernel Logistic Regression

之前讲的把svm用于Logistics Regression,其实是先用SVM进行特征变 换,然后在变换后的空间使用LogReg,那么能不能直接在z空间做变换,而 省去SVM的步骤呢?
上一小节我们介绍的是通过kernel SVM在z空间中求得logistic regression 的近似解。如果我们希望直接在z空间中直接求解logistic regression,通过 引入kernel,来解决最优化问题,又该怎么做呢?
1、 SVM中使用kernel,转化为QP问题,进行求解,但是logistic regression 却不是个QP问题,看似好像没有办法利用kernel来解决。 我们先来看看之前介绍的kernel trick为什么会work。 kernel trick就是把z空间的内积转换到x空间中比较容易计算的函数。
机器学习技法笔记5:Kernel 逻辑回归_第23张图片
机器学习技法笔记5:Kernel 逻辑回归_第24张图片
机器学习技法笔记5:Kernel 逻辑回归_第25张图片
机器学习技法笔记5:Kernel 逻辑回归_第26张图片
机器学习技法笔记5:Kernel 逻辑回归_第27张图片
机器学习技法笔记5:Kernel 逻辑回归_第28张图片
机器学习技法笔记5:Kernel 逻辑回归_第29张图片
这里写图片描述
机器学习技法笔记5:Kernel 逻辑回归_第30张图片
总结:
5-1将Soft-Margin SVM 和 Regularized Model进行了对比,5-2将SVM 和Logistic Regression进行了对比,5-3将SVM用于soft binary classification,具体来说是将SVM得到的结果作为分数来构造模型,5-4把kernel技巧引入带有L2正则化的logistics regression问题中。得到KLR

你可能感兴趣的:(机器学习技法,机器学习,SVM)