LR与SVM复习推导 面试常考题整理

复习了一下logistic和SVM,整理了一些推导过程
 

Logistic回归

Logistic回归:广义线性模型的一种,用于0/1分类任务。由于特征的线性组合的取值范围是负无穷到正无穷,因此使用sigmoid函数将其映射到(0,1)上,映射后的值被认为是y=1的概率。
LR与SVM复习推导 面试常考题整理_第1张图片
 
 

SVM

SVM:特征空间上的间隔最大的线性分类器,学习策略是使间隔最大化,可以转化为一个凸二次规划问题求解

SVM的原理是什么?

SVM是一种二分类模型,在特征空间中寻找间隔最大化的分离超平面的线性分类器。

  1. 训练样本线性可分时,硬间隔最大化,学习一个线性分类器,即线性可分支持向量机
  2. 训练数据近似线性可分时,引入松弛变量,通过软间隔最大化学习一个线性分类器,即线性支持向量机
  3. 训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。

数学推导掌握:硬间隔最大化(几何间隔)、对偶问题、软间隔最大化(引入松弛变量)、核技巧

硬间隔最大化:
LR与SVM复习推导 面试常考题整理_第2张图片
对偶问题:
LR与SVM复习推导 面试常考题整理_第3张图片
软间隔最大化:
LR与SVM复习推导 面试常考题整理_第4张图片

 
 

为什么采用间隔最大化

线性可分时,存在无穷多个分离超平面可以将两类样本正确分开。线性可分SVM利用间隔最大化求得最优分离超平面,解是唯一的。而且,该超平面所产生的分类结果是最鲁棒的,对未知实例的泛化能力最强。

 

为什么要将求解 SVM 的原始问题转换为其对偶问题

一是对偶问题更容易求解,求解带约束的最优化问题时,约束的存在减小了需要搜寻的范围,但却使问题更加复杂。为了使问题变得易于处理,构建拉格朗日函数将目标函数和约束放在一起,再通过这个函数来寻找最优点。转化为对偶问题可以简化求解,最终化简到只含有 α \alpha α的最优化问题。
二是可以自然引入核函数,推广到非线性分类问题。

 

为什么要引入核函数?

当样本在原始空间线性不可分时,可以使用一个变换 ϕ ( x ) \phi(x) ϕ(x),将原空间数据映射到新空间(高维空间,使得样本在新的特征空间内线性可分),在新空间用线性分类方法从训练数据中学习分类模型。
实际上我们并不需要知道映射 ϕ \phi ϕ和映射后的 ϕ ( x ) \phi(x) ϕ(x),在最终求解的最优化问题中,只需要知道x两两的内积:
LR与SVM复习推导 面试常考题整理_第5张图片
所以,无需求解真正的映射函数,而只需要知道在高维特征空间上的内积如何计算。
核函数的定义: K ( x , y ) = < ϕ ( x ) , ϕ ( y ) > K(x,y)=<ϕ(x),ϕ(y)> K(x,y)=<ϕ(x),ϕ(y)>,即在特征空间的内积等于它们在原始样本空间中通过核函数 K K K计算的结果,直接在原始样本空间计算内积。一方面数据变成了高维空间中线性可分的数据,另一方面不需要求解具体的映射函数,只需要给定核函数即可,使得求解的难度大大降低。

 

常用的核函数

  1. 线性核: x i T x j x_i^Tx_j xiTxj

  2. 多项式核: K ( x i , x j ) = ( x i T x j + 1 ) p K(x_i, x_j)=(x_i^Tx_j+1)^p K(xi,xj)=(xiTxj+1)p

  3. RBF核(高斯核): K ( x i , x j ) = e x p ( − ∣ ∣ x i − x j ∣ ∣ 2 2 σ 2 ) K(x_i, x_j)=exp(-\frac{||x_i-x_j||^2}{2\sigma^2}) K(xi,xj)=exp(2σ2xixj2)

一般选择线性核或RBF核。
线性核:主要用于线性可分的情形,参数少,速度快,对于一般数据,分类效果已经很理想了。
RBF 核:主要用于线性不可分的情形,参数多,分类结果非常依赖于参数,通常 σ \sigma σ取的特别小时更容易过拟合。可以通过交叉验证来寻找合适的参数,但比较耗时。 如果特征的数量很大,跟样本数量差不多,选用线性核的 SVM。 如果 特征的数量比较小,样本数量一般,不算大也不算小,选用高斯核的 SVM。(经验方法)

 

LR与SVM异同

同:都是监督学习线性分类模型(不考虑核函数),都是判别模型
异:SVM结构风险最小化,自带L2正则项;LR经验风险最小化(如果不加正则化项)。影响SVM决策平面的只有部分向量,而LR中每个点都会影响。

你可能感兴趣的:(机器学习,机器学习,svm,支持向量机,逻辑回归)