最大间隔目标函数(Maximum Margin Objective Function)推导

基本思想:确保正样本计算得到的分数比负样本的高

假设由正、负样本计算得到的分数分别为 s + s_{+} s+ s − s_{-} s,那么我们的目标为最大化 ( s + − s − ) (s_{+}-s_{-}) (s+s),换一个角度,也就是最小化 ( s − − s + ) (s_{-}-s_{+}) (ss+)

事实上,当 s + > s − s_{+}>s_{-} s+>s时,已经满足我们正例分数大于反例的目标,因此我们只考虑当 s − > s + s_{-}>s_{+} s>s+的情况,此时会产生误差:

J = m a x ( s − − s + , 0 ) J = max(s_{-}-s_{+}, 0) J=max(ss+,0)

但是为了使分类结果更具有说服性,我们要求 s + s_{+} s+不仅仅比 s − s_{-} s要大,而且要大于一定的阈值 Δ \Delta Δ才行。即当 s + − s − < Δ s_{+}-s_{-}<\Delta s+s<Δ时就要开始计算误差,于是误差的计算可以被修改为:

J = m a x ( Δ + s − − s + , 0 ) J = max(\Delta + s_{-}-s_{+}, 0) J=max(Δ+ss+,0)

为了简化,我们可以将 Δ \Delta Δ缩放为1(实际上,也就是将W和b都按照同比例缩放,即 W Δ \frac W \Delta ΔW b Δ \frac b \Delta Δb),于是得到我们最终需要优化的最大间隔目标函数:

L o s s = m i n i m i z e J = m a x ( 1 + s − − s + , 0 ) Loss = minimize {J= max(1 + s_{-}-s_{+}, 0)} Loss=minimizeJ=max(1+ss+,0)

注:

  1. 可以在《统计学习方法》的SVM一章中了解关于最大间隔目标函数更为详细的推导
  2. 图像的线性分类器(感知机、SVM、Softmax)一文中的SVM部分有涉及到对该目标函数的应用

你可能感兴趣的:(机器学习笔记,nlp)