在超平面 w⋅x+b=0 w ⋅ x + b = 0 确定的情况下, |w⋅x+b| | w ⋅ x + b | 可以相对地表示点x距离超平面的远
近。对于两类分类问题,如果 w⋅x+b>0 w ⋅ x + b > 0 ,则 x x 的类别被判定为1;否则判定为-1。
所以如果y(w⋅x+b)>0 y ( w ⋅ x + b ) > 0 ,则认为 x x 的分类结果是正确的,否则是错误的。且y(w⋅x+b) y ( w ⋅ x + b ) 的值越大,分类结果的确信度越大。反之亦然。
对于一个训练样本 (x(i),y(i)) ( x ( i ) , y ( i ) ) 我们定义它到超平面 (w,b) ( w , b ) 的函数间隔为:
γ^=y(i)(wTx(i)+b) γ ^ = y ( i ) ( w T x ( i ) + b )
我们希望函数间隔越大越好, 即:
ify(i)=1,wantwTx(i)+b≫0,ify(i)=−1,wantwTx(i)+b≪0. if y ( i ) = 1 , want w T x ( i ) + b ≫ 0 , if y ( i ) = − 1 , want w T x ( i ) + b ≪ 0.
并且有, 若 y(i)(wTx(i)+b)>0 y ( i ) ( w T x ( i ) + b ) > 0 则样本 (x(i),y(i)) ( x ( i ) , y ( i ) ) 分类正确。
对于整个训练集, 我们的函数间隔定义为:
γ^=miniγ^(i) γ ^ = min i γ ^ ( i )
也就是说, 对于整个训练集来说, 函数间隔为所有样本中函数间隔最小的那个函数间隔.(判断性能当然是以最小的那个来确定啦)
那么问题又来了:
函数间隔越大, 代表我们对于分类的结果非常确定. 我们希望函数间隔越大越好. 看上去好像没什么毛病, 但这里的确有一个问题, 就是其实我们可以在不改变这个超平面的情况下可以让函数间隔任意大, 为什么?
只要我们成比增加 w w ,b b 就可以达到这个目的了. 例如, 我们将
w w 变为2w 2 w , b b 变为2b 2 b , 那么我们的函数间隔将会是原来的两倍, 但是超平面 2wTx+2b=0 2 w T x + 2 b = 0 与 wTx+b=0 w T x + b = 0 是一回事.
为了解决这个问题, 我们就需要加上一些限制条件,所以,需要将 w w 的大小固定,如||w||=1 | | w | | = 1 ,使得函数间隔固定。这时的间隔也就是几何间隔 .(看完后面几何间隔的定义就明白了)
实际上,几何间隔就是点到超平面的距离。
想像下中学学习的点 (xi,yi) ( x i , y i ) 到直线
ax+by+c=0 a x + b y + c = 0 的距离公式:
d(xi,yi)=|axi+byi+c|a2+b2√ d ( x i , y i ) = | a x i + b y i + c | a 2 + b 2
所以在二维空间中,几何间隔就是点到直线的距离。在三维及以上空间中,就是点到超平面的距离。而函数距离,就是上述距离公式中的分子.
几何间隔的定义如下:
γ(i)=y(i)(wT∥w∥x(i)+b∥w∥) γ ( i ) = y ( i ) ( w T ‖ w ‖ x ( i ) + b ‖ w ‖ )
我们发现当 ||w||=1 | | w | | = 1 几何间隔就是函数间隔.这个时候, 如果任意放大 ||w|| | | w | | ,几何间隔是不会改变的, 因为 ||w|| | | w | | 也会随着被放大.
几何间隔与函数间隔的关系为:
γ(i)=γ^(i)∥w∥. γ ( i ) = γ ^ ( i ) ‖ w ‖ .
定义训练集到超平面的最小几何间隔是:
γ=miniγ(i) γ = min i γ ( i )